qwen-bg
max-ico04
In
Aus
max-ico02
Chat
max-ico03
deaktivieren
Deepgram Nova-2
Die Deepgram Nova-2 API zeichnet sich durch höhere Genauigkeit, mehrsprachige Unterstützung und schnelle Transkription in verschiedenen Anwendungen aus.
Gratis-Tokens im Wert von 1 $ für neue Mitglieder
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Eine API für über 300 KI-Modelle

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!
qwenmax-bg
Bild
Deepgram Nova-2

Produktdetails

🚀 Entdecken Sie Deepgram Nova-2: Die Zukunft der Spracherkennung

Deepgram Nova-2 ist ein bahnbrechendes Modell zur automatischen Spracherkennung (ASR), entwickelt von Deepgram Es bietet eine beispiellose Genauigkeit sowohl bei vorab aufgezeichneten als auch bei in Echtzeit gestreamten Audioinhalten in Englisch. Es setzt neue Maßstäbe in der Branche und bietet einen deutlichen Leistungssprung gegenüber Vorgängermodellen und Konkurrenzprodukten.

Modell-Highlights:

  • Modellbezeichnung: Nova-2
  • Entwickler: Deepgram
  • Modelltyp: Automatische Spracherkennung (ASR)

Leistungsvorteil:

  • 18 % genauer als frühere Nova-Modelle.
  • 🎯 Bietet ein 36 % relative Verbesserung der WER über OpenAI Whisper (groß).

💡 Hauptmerkmale von Nova-2

Nova-2 ist mit einer Reihe von Funktionen ausgestattet, die den hohen Anforderungen moderner Sprachanwendungen gerecht werden:

  • 🌐 Mehrsprachigkeit: Erweitern Sie Ihre Reichweite durch die Unterstützung verschiedener Sprachen.
  • 📈 Hohe Genauigkeit und reduzierte Wortfehlerrate (WER): Erzielen Sie überragende Transkriptionsqualität.
  • Schnelle Inferenzzeiten: Schnelle Audioverarbeitung für Echtzeitanwendungen.
  • 💰 Wettbewerbsfähige Preise: Profitieren Sie von kostengünstigen Transkriptionslösungen.

🎯 Vielseitige Anwendungsmöglichkeiten & Spezialmodelle

Deepgram Nova-2 ist für ein breites Spektrum an Sprachanwendungen konzipiert, von der Echtzeit-Transkription bis zur Medienanalyse. Um den unterschiedlichen Branchenanforderungen gerecht zu werden, bietet Nova-2 mehrere hochoptimierte Versionen an:

Allgemeine und Kernmodelle:

  • Nova-2 oder nova-2-general: Universell einsetzbares Modell für verschiedene Anwendungsbereiche.
  • nova-2-conversationalai: Ideal für dialogorientierte KI.
  • nova-2-video: Optimiert für Videoinhalte.

Branchenspezifische Optimierungen:

  • nova-2-Meeting: Speziell für die Transkription von Besprechungen entwickelt.
  • nova-2-phonecall: Speziell für die Transkription von Telefongesprächen.
  • nova-2-finance: Speziell für Finanzkontexte entwickelt.
  • nova-2-voicemail: Ideal für Voicemail-Nachrichten.
  • nova-2-medical: Spezialisiert auf medizinische Transkription, erreicht 16 % bessere Genauigkeit für medizinische Fachbegriffe mit 120–180 Wörtern/Minute. Erfahren Sie mehr über KI im Gesundheitswesen. HierDie
  • nova-2-drivethru: Entwickelt für Drive-Thru-Systeme.
  • nova-2-automotive: Entwickelt für den Einsatz im Automobilbereich.

⚙️ Technische Einblicke in Nova-2

Architektur:

Nova-2 basiert auf einem hochmoderne Transformer-basierte ArchitekturDieses fortschrittliche Design verbessert die Leistung deutlich und führt zu einem 18,4 % Reduzierung der Wortfehlerrate (WER) im Vergleich zu Nova-1. Diese Verbesserungen sind entscheidend für die hochpräzise Transkription von Entitäten (wie Eigennamen), Interpunktion und Großschreibung sowohl bei Live- als auch bei vorab aufgezeichneten Audiodateien.

Trainingsdaten:

Das Modell wurde mit Deepgrams bisher umfangreichstem und vielfältigstem Datensatz trainiert, der nahezu alle Datenpunkte umfasste. 6 Millionen Ressourcen und 47 Milliarden TokenDieser riesige Datensatz ist mit einer umfassenden Sammlung hochwertiger menschlicher Transkriptionen angereichert, was ein robustes und genaues Lernen gewährleistet.

Leistungskennzahlen & Geschwindigkeit:

Nova-2 weist im Vergleich zu Vorgängermodellen und Konkurrenzprodukten deutliche Verbesserungen bei der Worterkennungsrate (WER) auf. Darüber hinaus Geschwindigkeit ist ein entscheidender VorteilNova-2 erreichte eine mittlere Inferenzzeit von nur 29,8 Sekunden pro Stunde aufgezeichneter AudioaufnahmenDas macht es 5 bis 40 Mal schneller als andere Anbieter, die Diarisierungsfunktionen anbieten.

🛠️ So verwenden Sie Deepgram Nova-2

Codebeispiele & SDK:

Integrationsbeispiel: Verwenden Sie den Codeausschnitt `voice.stt` mit `data-model="#g1_nova-2-general"` für allgemeine Transkriptionsanforderungen.

Anleitungen:

Vertiefen Sie Ihr Wissen mit Ratgebern wie diesen: Multimodale Spracherkennung in NodeJS

Technische Einschränkungen:

  • 💾 Maximale Dateigröße: 2 GB
  • ⏱️ Ratenbegrenzungen: 100 gleichzeitige Anfragen

⚖️ Ethische Überlegungen zu Nova-2

Deepgram engagiert sich für eine verantwortungsvolle KI-Entwicklung. Nova-2 hält sich an strenge ethische Richtlinien:

  • 🔒 Datenschutz & ethische KI: Strikte Einhaltung ethischer KI-Entwicklungsgrundsätze mit Schwerpunkt auf Datenschutz und verantwortungsvoller Nutzung.
  • 🌍 Maßnahmen zur Minderung von Verzerrungen: Kontinuierliche Bemühungen, um Fairness und Genauigkeit bei unterschiedlichen Sprachmustern, Akzenten und demografischen Gruppen zu gewährleisten.

❓ Häufig gestellte Fragen (FAQ) zu Deepgram Nova-2

F: Was ist Deepgram Nova-2?

A: Deepgram Nova-2 ist ein hochmodernes automatisches Spracherkennungsmodell (ASR), das für die hochpräzise Umwandlung von Sprache in Text bei sowohl vorab aufgezeichneten als auch gestreamten englischen Audiodateien entwickelt wurde.

F: Wie schneidet Nova-2 im Vergleich zu anderen ASR-Modellen wie OpenAI Whisper ab?

A: Nova-2 zeichnet sich durch eine um 18 % höhere Genauigkeit gegenüber früheren Deepgram Nova-Modellen aus und bietet eine signifikante relative Verbesserung der Wortfehlerrate (WER) um 36 % im Vergleich zu OpenAI Whisper (large).

F: Gibt es spezielle Versionen von Nova-2 für bestimmte Branchen?

A: Ja, Deepgram Nova-2 bietet mehrere optimierte Versionen für spezifische Anwendungsfälle, darunter `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical` und weitere, die jeweils auf maximale Genauigkeit in ihrem jeweiligen Bereich zugeschnitten sind.

F: Was sind die wichtigsten technischen Vorteile von Nova-2?

A: Nova-2 nutzt eine fortschrittliche Transformer-basierte Architektur, was zu einer WER-Reduzierung von 18,4 % gegenüber Nova-1 führt. Es wurde mit einem umfangreichen Datensatz von 47 Milliarden Tokens trainiert und bietet extrem schnelle Inferenzzeiten, die 5- bis 40-mal schneller sind als die der Konkurrenz für dialogisiertes Audio.

F: Wie geht Deepgram mit ethischen Bedenken im Zusammenhang mit Nova-2 um?

A: Deepgram legt Wert auf eine ethische KI-Entwicklung und konzentriert sich darauf, Verzerrungen zu reduzieren, die Privatsphäre zu gewährleisten und Fairness und Genauigkeit bei unterschiedlichen Sprachmustern und Akzenten durch kontinuierliche Bemühungen und die Einhaltung strenger Richtlinien aufrechtzuerhalten.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.
Kostenlos testen
api-right-1
Modell-BG02-1

Eine API
Mehr als 300 KI-Modelle

Sparen Sie 20 % der Kosten