qwen-bg
max-ico04
In
Aus
max-ico02
Chat
max-ico03
deaktivieren
Flüstern
Die Whisper API von OpenAI bietet robuste, mehrsprachige Spracherkennungsfunktionen, die mit verschiedenen Daten trainiert wurden und unter der MIT-Lizenz kostenlos für die kommerzielle Nutzung zur Verfügung stehen.
Gratis-Tokens im Wert von 1 $ für neue Mitglieder
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Eine API für über 300 KI-Modelle

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!
qwenmax-bg
Bild
Flüstern

Produktdetails

Das Whisper-Modell von OpenAI verstehen: Ein umfassender Überblick

Der Whisper-Modell, entwickelt von OpenAIWhisper stellt einen Meilenstein in der automatischen Spracherkennung (ASR) und Sprachübersetzungstechnologie dar. Die öffentlich zugänglichen Whisper-Modelle fördern die KI-Forschung und zeichnen sich durch Robustheit, Generalisierbarkeit und die Identifizierung potenzieller Verzerrungen in KI-Systemen aus. Sie sind besonders effektiv für die englische Spracherkennung, bieten aber auch starke mehrsprachige Fähigkeiten.

Wichtiger Hinweis: Die Verwendung von Whisper-Modellen zur Transkription nicht einvernehmlicher Aufnahmen oder in risikoreichen Entscheidungssituationen wird aufgrund potenzieller Ungenauigkeiten und ethischer Bedenken dringend abgeraten.

Grundlegende Informationen & Entwicklung

  • Modellbezeichnung: Flüstern
  • Entwickler: OpenAI
  • Veröffentlichungsgeschichte: Die Originalserie startet im September 2022, gefolgt von groß-v2 im Dezember 2022 und groß-v3 im November 2023.
  • Modelltyp: Sequenz-zu-Sequenz-ASR (Automatische Spracherkennung) und Sprachübersetzungsmodell.

Whisper-Modellversionen – Übersicht

Größe Parameter Relative Geschwindigkeit
winzig 39 M ~32x
Base 74 M ~16x
klein 244 M ~6x
Medium 769 M ~2x
groß 1550 M 1x

Hauptmerkmale der Whisper-Modelle

  • ✓ Mehrsprachigkeit: Starke Leistung in rund 10 Sprachen, mit laufender Evaluierung für breitere Anwendungsbereiche wie Spracherkennung und Sprecherklassifizierung.
  • ✓ Robustheit: Außergewöhnlich widerstandsfähig gegenüber unterschiedlichen Akzenten, Dialekten und geräuschvollen Audioumgebungen.
  • ✓ Vielseitige Anwendungsmöglichkeiten: Ideal für Sprachtranskription, Sprachübersetzung und automatische Untertitelgenerierung.

Vorgesehene Anwendungsfälle 🚀

Whisper-Modelle sind in erster Linie für folgende Zwecke gedacht: Entwickler und ForscherSie sind wertvolle Werkzeuge zur Integration fortschrittlicher Spracherkennungsfunktionen in verschiedene Anwendungen, zur Verbesserung der Barrierefreiheit und zur Unterstützung linguistischer Forschungsinitiativen.

Technische Details ⚙️

Architektur:

Das Whisper-Modell basiert auf einer ausgeklügelten TransformatorarchitekturDiese Architektur ist auf einem umfangreichen Datensatz vortrainiert, der sowohl überwachte als auch unüberwachte Lerndaten umfasst und somit ein robustes Feature-Lernen ermöglicht.

Trainingsdaten:

Das Training umfasste umfangreiche 680.000 Stunden an Audiomaterial aus dem Internet und den dazugehörigen Transkripten. Dieser Datensatz wurde sorgfältig ausbalanciert:

  • ‣ 65% Englische Audioaufnahmen mit englischen Transkripten.
  • ‣ 18% Nicht-englischsprachige Audiodateien mit englischen Transkripten.
  • ‣ 17% Nicht-englische Audiodateien mit passenden nicht-englischen Transkripten.

Die Trainingsdaten umfassten insgesamt 98 verschiedene Sprachen.

Leistungskennzahlen & Überlegungen:

Forschungsergebnisse zeigen, dass Whisper-Modelle viele bestehende ASR-Systeme im Allgemeinen übertreffen und eine höhere Robustheit gegenüber Akzenten, Hintergrundgeräuschen und Fachsprache aufweisen. Sie erreichen nahezu modernste Genauigkeit sowohl bei der Spracherkennung als auch bei der Zero-Shot-Übersetzung aus verschiedenen Sprachen ins Englische.

Die Leistung kann jedoch je nach Sprache erheblich variieren, insbesondere bei ressourcenarmen oder weniger erforschten Sprachen. Auch die Genauigkeit kann je nach Akzent, Dialekt und demografischer Gruppe unterschiedlich sein. Die Modelle können gelegentlich sich wiederholende Texte erzeugen; dieses Problem lässt sich jedoch häufig durch Techniken wie Beam Search und Temperature Scheduling abmildern.

Wissensgrenze:

Die für das Training der Whisper-Modelle verwendeten Audio- und Textdaten enthalten keine Informationen, die über Mitte 2022 hinausgehen.

Nutzung und Integration 💻

  • Codebeispiele/SDK: Entwickler können über verfügbare SDKs und Codebeispiele auf die Whisper-Funktionen zugreifen und diese in ihre Anwendungen integrieren.
  • Anleitungen: Erkunden Sie Ratgeber wie den Multimodale Spracherkennung in NodeJS für praktische Umsetzungshinweise.
  • Maximale Dateigröße: Die aktuelle Grenze für die Verarbeitung von Audiodateien beträgt 2 GB.

Unterstützung und Gemeinschaft 💬

  • Gemeinschaftsressourcen: Beteilige dich an der Diskussion und erhalte Unterstützung auf der Discord AIML API Server.
  • Supportkanäle: Melden Sie Probleme oder leisten Sie direkt über die offizielle Plattform einen Beitrag. OpenAI Whisper GitHub-RepositoryDie

Ethische Überlegungen & Lizenzierung ⚖️

  • ⚠ Ethische Richtlinien: OpenAI bietet umfassende Leitlinien für den verantwortungsvollen Umgang mit KI-Technologien und betont dabei die Wichtigkeit von Datenschutz und ethischem Einsatz.
  • ⚠ Maßnahmen zur Minderung von Verzerrungen: Es werden kontinuierliche Anstrengungen unternommen, um Verzerrungen in der Genauigkeit der Spracherkennung über verschiedene Sprachen, Akzente und demografische Gruppen hinweg zu reduzieren.
  • ⓘ Lizenztyp: Whisper-Modelle werden unter der Marke veröffentlicht. MIT-Lizenz, wodurch sowohl die kommerzielle als auch die nichtkommerzielle Nutzung gestattet ist.

Referenzen 📖

Häufig gestellte Fragen (FAQ)

Frage 1: Was ist der Hauptzweck des Whisper-Modells von OpenAI?
A1: Das Whisper-Modell ist ein fortschrittliches ASR- und Sprachübersetzungsmodell, das primär für die KI-Forschung hinsichtlich Modellrobustheit, Generalisierung und Verzerrungen entwickelt wurde. Es eignet sich hervorragend zur englischen Spracherkennung und bietet starke mehrsprachige Funktionen.

Frage 2: Was sind die Hauptanwendungsgebiete des Whisper-Modells?
A2: Es kann für verschiedene Aufgaben verwendet werden, darunter Sprachtranskription, Übersetzung gesprochener Sprache in Text und Generierung von Untertiteln für Audio- und Videoinhalte.

Frage 3: Wie viele Sprachen unterstützt Whisper?
A3: Die Modelle wurden mit Daten trainiert, die 98 Sprachen umfassen, und zeigen eine starke Leistung in etwa 10 Sprachen, während die Genauigkeit bei anderen Sprachen variiert.

Frage 4: Gibt es ethische Bedenken hinsichtlich der Verwendung von Whisper?
A4: Ja, OpenAI rät dringend davon ab, die Software zur Transkription nicht einvernehmlicher Aufnahmen oder in risikoreichen Entscheidungsprozessen einzusetzen, da dies zu Ungenauigkeiten und Datenschutzbedenken führen kann. Nutzern wird empfohlen, die ethischen Richtlinien von OpenAI zu beachten.

Frage 5: Ist das Whisper-Modell Open Source?
A5: Ja, Whisper-Modelle werden unter der MIT-Lizenz veröffentlicht, was sowohl die kommerzielle als auch die nichtkommerzielle Nutzung durch Entwickler und Forscher ermöglicht.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.
Kostenlos testen
api-right-1
Modell-BG02-1

Eine API
Mehr als 300 KI-Modelle

Sparen Sie 20 % der Kosten