qwen-bg
max-ico04
Dans
Dehors
max-ico02
Chat
max-ico03
désactiver
Deepgram Nova-2
L'API Deepgram Nova-2 offre une précision accrue, une prise en charge multilingue et une transcription rapide pour diverses applications.
Jetons gratuits de 1 $ pour les nouveaux membres
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.
qwenmax-bg
image
Deepgram Nova-2

Détails du produit

🚀 Découvrez Deepgram Nova-2 : l’avenir de la transcription vocale

Deepgram Nova-2 est un modèle révolutionnaire de reconnaissance vocale automatique (ASR), conçu par Deepgram Ce système offre une précision inégalée pour la lecture audio en anglais, qu'elle soit préenregistrée ou en streaming en temps réel. Il établit une nouvelle référence dans le secteur, avec des performances nettement supérieures à celles de ses prédécesseurs et concurrents.

Points forts du modèle :

  • Nom du modèle : Nova-2
  • Promoteur: Deepgram
  • Type de modèle : Reconnaissance vocale automatique (ASR)

Avantage en matière de performance :

  • 18 % plus précis que les modèles Nova précédents.
  • 🎯 Offre un Amélioration relative du WER de 36 % via OpenAI Whisper (grand format).

💡 Principales caractéristiques de Nova-2

Nova-2 est conçu avec une série de fonctionnalités pensées pour répondre aux exigences rigoureuses des applications vocales modernes :

  • 🌐 Capacités multilingues : Élargissez votre audience grâce à la prise en charge de plusieurs langues.
  • 📈 Haute précision et taux d'erreur de mots (WER) réduit : Obtenez une qualité de transcription supérieure.
  • Temps d'inférence rapides : Traitement audio rapide pour les applications en temps réel.
  • 💰 Prix ​​compétitifs : Bénéficiez de solutions de transcription économiques.

🎯 Applications polyvalentes et modèles spécialisés

Deepgram Nova-2 est conçu pour un large éventail d'applications vocales, de la transcription en temps réel à l'analyse multimédia. Afin de répondre aux divers besoins des différents secteurs, Nova-2 propose plusieurs versions hautement optimisées :

Modèles généraux et de base :

  • nova-2 ou nova-2-général : Modèle à usage général pour divers domaines.
  • nova-2-conversationalai: Idéal pour l'IA conversationnelle.
  • nova-2-vidéo : Optimisé pour le contenu vidéo.

Optimisations spécifiques à l'industrie :

  • réunion nova-2 : Conçu pour la transcription de réunions.
  • nova-2-appel téléphonique : Spécifiquement pour la transcription des appels téléphoniques.
  • nova-2-finance : Adapté aux contextes financiers.
  • messagerie vocale nova-2 : Idéal pour les messages vocaux.
  • nova-2-médical : Spécialisée dans la transcription médicale, elle a atteint Précision améliorée de 16 % Pour les termes médicaux, à raison de 120 à 180 mots par minute. Explorez davantage l'IA dans le domaine de la santé. ici.
  • nova-2-drivethru : Conçu pour les systèmes de service au volant.
  • nova-2-automobile : Conçu pour les environnements automobiles.

⚙️ Aperçu technique de Nova-2

Architecture:

Nova-2 est construit sur un architecture de pointe basée sur les transformateursCette conception avancée améliore considérablement les performances, ce qui conduit à un Diminution de 18,4 % du taux d'erreurs de mots (WER) par rapport à Nova-1. Ces améliorations sont cruciales pour la transcription précise des entités (comme les noms propres), de la ponctuation et de la mise en majuscules, aussi bien dans les enregistrements audio en direct que préenregistrés.

Données d'entraînement :

Le modèle a été entraîné sur l'ensemble de données le plus vaste et le plus diversifié de Deepgram à ce jour, utilisant près de 6 millions de ressources et 47 milliards de jetonsCet ensemble de données massif est enrichi d'une collection exhaustive de transcriptions humaines de haute qualité, garantissant un apprentissage robuste et précis.

Indicateurs de performance et vitesse :

Nova-2 affiche des améliorations significatives en termes de WER par rapport aux modèles précédents et à ses concurrents. De plus, La vitesse est un avantage crucialNova-2 a atteint un temps d'inférence médian de seulement 29,8 secondes par heure d'audio journaliséCela le rend 5 à 40 fois plus rapide que d'autres fournisseurs proposant des fonctionnalités de diarisation.

🛠️ Comment utiliser Deepgram Nova-2

Exemples de code et kit de développement logiciel (SDK) :

Exemple d'intégration : Utilisez l'extrait `voice.stt` avec `data-model="#g1_nova-2-general"` pour les besoins généraux de transcription.

Tutoriels :

Approfondissez vos connaissances grâce à des guides comme : Expérience multimodale de conversion vocale en texte avec NodeJS

Contraintes techniques :

  • 💾 Taille maximale du fichier : 2 Go
  • ⏱️ Limites de débit : 100 requêtes simultanées

⚖️ Considérations éthiques concernant Nova-2

Deepgram s'engage en faveur d'un développement responsable de l'IA. Nova-2 respecte des directives éthiques rigoureuses :

  • 🔒 Confidentialité et IA éthique : Respect strict des principes de développement éthique de l'IA, mettant l'accent sur la confidentialité des données et leur utilisation responsable.
  • 🌍 Atténuation des biais : Des efforts continus pour garantir l'équité et l'exactitude des données, quels que soient les schémas de langage, les accents et les caractéristiques démographiques.

❓ Foire aux questions (FAQ) sur Deepgram Nova-2

Q : Qu'est-ce que Deepgram Nova-2 ?

A: Deepgram Nova-2 est un modèle de reconnaissance vocale automatique (ASR) de pointe conçu pour une transcription vocale en texte très précise d'audio anglais préenregistré et en flux continu.

Q : Comment Nova-2 se compare-t-il à d'autres modèles ASR comme OpenAI Whisper ?

A: Nova-2 affiche une amélioration de 18 % de la précision par rapport aux modèles Deepgram Nova précédents et offre une amélioration significative de 36 % du taux d'erreur relatif sur les mots (WER) par rapport à OpenAI Whisper (large).

Q : Existe-t-il des versions spécialisées du Nova-2 pour des secteurs d'activité spécifiques ?

R: Oui, Deepgram Nova-2 est livré avec plusieurs versions optimisées pour des cas d'utilisation spécifiques, notamment `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical`, et plus encore, chacune adaptée pour une précision maximale dans son domaine respectif.

Q : Quels sont les principaux avantages techniques du Nova-2 ?

A: Nova-2 utilise une architecture avancée basée sur Transformer, ce qui permet de réduire le WER de 18,4 % par rapport à Nova-1. Il a été entraîné sur un vaste ensemble de données de 47 milliards de jetons et offre des temps d'inférence extrêmement rapides, de 5 à 40 fois plus rapides que ses concurrents pour l'audio diarisé.

Q : Comment Deepgram gère-t-il les questions éthiques liées à Nova-2 ?

A: Deepgram privilégie le développement éthique de l'IA, en s'attachant à réduire les biais, à garantir la confidentialité et à maintenir l'équité et la précision pour divers schémas de parole et accents grâce à des efforts continus et au respect de directives strictes.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.
Essai gratuit
api-droite-1
modèle-bg02-1

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts