



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: '#g1_whisper-large',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "#g1_whisper-large",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Produktdetails
Das Whisper-Modell von OpenAI verstehen: Ein umfassender Überblick
Der Whisper-Modell, entwickelt von OpenAIWhisper stellt einen Meilenstein in der automatischen Spracherkennung (ASR) und Sprachübersetzungstechnologie dar. Die öffentlich zugänglichen Whisper-Modelle fördern die KI-Forschung und zeichnen sich durch Robustheit, Generalisierbarkeit und die Identifizierung potenzieller Verzerrungen in KI-Systemen aus. Sie sind besonders effektiv für die englische Spracherkennung, bieten aber auch starke mehrsprachige Fähigkeiten.
Wichtiger Hinweis: Die Verwendung von Whisper-Modellen zur Transkription nicht einvernehmlicher Aufnahmen oder in risikoreichen Entscheidungssituationen wird aufgrund potenzieller Ungenauigkeiten und ethischer Bedenken dringend abgeraten.
Grundlegende Informationen & Entwicklung
- Modellbezeichnung: Flüstern
- Entwickler: OpenAI
- Veröffentlichungsgeschichte: Die Originalserie startet im September 2022, gefolgt von
groß-v2im Dezember 2022 undgroß-v3im November 2023. - Modelltyp: Sequenz-zu-Sequenz-ASR (Automatische Spracherkennung) und Sprachübersetzungsmodell.
Whisper-Modellversionen – Übersicht
| Größe | Parameter | Relative Geschwindigkeit |
|---|---|---|
| winzig | 39 M | ~32x |
| Base | 74 M | ~16x |
| klein | 244 M | ~6x |
| Medium | 769 M | ~2x |
| groß | 1550 M | 1x |
Hauptmerkmale der Whisper-Modelle ⭐
- ✓ Mehrsprachigkeit: Starke Leistung in rund 10 Sprachen, mit laufender Evaluierung für breitere Anwendungsbereiche wie Spracherkennung und Sprecherklassifizierung.
- ✓ Robustheit: Außergewöhnlich widerstandsfähig gegenüber unterschiedlichen Akzenten, Dialekten und geräuschvollen Audioumgebungen.
- ✓ Vielseitige Anwendungsmöglichkeiten: Ideal für Sprachtranskription, Sprachübersetzung und automatische Untertitelgenerierung.
Vorgesehene Anwendungsfälle 🚀
Whisper-Modelle sind in erster Linie für folgende Zwecke gedacht: Entwickler und ForscherSie sind wertvolle Werkzeuge zur Integration fortschrittlicher Spracherkennungsfunktionen in verschiedene Anwendungen, zur Verbesserung der Barrierefreiheit und zur Unterstützung linguistischer Forschungsinitiativen.
Technische Details ⚙️
Architektur:
Das Whisper-Modell basiert auf einer ausgeklügelten TransformatorarchitekturDiese Architektur ist auf einem umfangreichen Datensatz vortrainiert, der sowohl überwachte als auch unüberwachte Lerndaten umfasst und somit ein robustes Feature-Lernen ermöglicht.
Trainingsdaten:
Das Training umfasste umfangreiche 680.000 Stunden an Audiomaterial aus dem Internet und den dazugehörigen Transkripten. Dieser Datensatz wurde sorgfältig ausbalanciert:
- ‣ 65% Englische Audioaufnahmen mit englischen Transkripten.
- ‣ 18% Nicht-englischsprachige Audiodateien mit englischen Transkripten.
- ‣ 17% Nicht-englische Audiodateien mit passenden nicht-englischen Transkripten.
Die Trainingsdaten umfassten insgesamt 98 verschiedene Sprachen.
Leistungskennzahlen & Überlegungen:
Forschungsergebnisse zeigen, dass Whisper-Modelle viele bestehende ASR-Systeme im Allgemeinen übertreffen und eine höhere Robustheit gegenüber Akzenten, Hintergrundgeräuschen und Fachsprache aufweisen. Sie erreichen nahezu modernste Genauigkeit sowohl bei der Spracherkennung als auch bei der Zero-Shot-Übersetzung aus verschiedenen Sprachen ins Englische.
Die Leistung kann jedoch je nach Sprache erheblich variieren, insbesondere bei ressourcenarmen oder weniger erforschten Sprachen. Auch die Genauigkeit kann je nach Akzent, Dialekt und demografischer Gruppe unterschiedlich sein. Die Modelle können gelegentlich sich wiederholende Texte erzeugen; dieses Problem lässt sich jedoch häufig durch Techniken wie Beam Search und Temperature Scheduling abmildern.
Wissensgrenze:
Die für das Training der Whisper-Modelle verwendeten Audio- und Textdaten enthalten keine Informationen, die über Mitte 2022 hinausgehen.
Nutzung und Integration 💻
- Codebeispiele/SDK: Entwickler können über verfügbare SDKs und Codebeispiele auf die Whisper-Funktionen zugreifen und diese in ihre Anwendungen integrieren.
- Anleitungen: Erkunden Sie Ratgeber wie den Multimodale Spracherkennung in NodeJS für praktische Umsetzungshinweise.
- Maximale Dateigröße: Die aktuelle Grenze für die Verarbeitung von Audiodateien beträgt 2 GB.
Unterstützung und Gemeinschaft 💬
- Gemeinschaftsressourcen: Beteilige dich an der Diskussion und erhalte Unterstützung auf der Discord AIML API Server.
- Supportkanäle: Melden Sie Probleme oder leisten Sie direkt über die offizielle Plattform einen Beitrag. OpenAI Whisper GitHub-RepositoryDie
Ethische Überlegungen & Lizenzierung ⚖️
- ⚠ Ethische Richtlinien: OpenAI bietet umfassende Leitlinien für den verantwortungsvollen Umgang mit KI-Technologien und betont dabei die Wichtigkeit von Datenschutz und ethischem Einsatz.
- ⚠ Maßnahmen zur Minderung von Verzerrungen: Es werden kontinuierliche Anstrengungen unternommen, um Verzerrungen in der Genauigkeit der Spracherkennung über verschiedene Sprachen, Akzente und demografische Gruppen hinweg zu reduzieren.
- ⓘ Lizenztyp: Whisper-Modelle werden unter der Marke veröffentlicht. MIT-Lizenz, wodurch sowohl die kommerzielle als auch die nichtkommerzielle Nutzung gestattet ist.
Referenzen 📖
- Erfahren Sie mehr über die zugrundeliegende Forschung: Whisper: Robuste Spracherkennung durch großflächige schwache Überwachung
Häufig gestellte Fragen (FAQ)
Frage 1: Was ist der Hauptzweck des Whisper-Modells von OpenAI?
A1: Das Whisper-Modell ist ein fortschrittliches ASR- und Sprachübersetzungsmodell, das primär für die KI-Forschung hinsichtlich Modellrobustheit, Generalisierung und Verzerrungen entwickelt wurde. Es eignet sich hervorragend zur englischen Spracherkennung und bietet starke mehrsprachige Funktionen.
Frage 2: Was sind die Hauptanwendungsgebiete des Whisper-Modells?
A2: Es kann für verschiedene Aufgaben verwendet werden, darunter Sprachtranskription, Übersetzung gesprochener Sprache in Text und Generierung von Untertiteln für Audio- und Videoinhalte.
Frage 3: Wie viele Sprachen unterstützt Whisper?
A3: Die Modelle wurden mit Daten trainiert, die 98 Sprachen umfassen, und zeigen eine starke Leistung in etwa 10 Sprachen, während die Genauigkeit bei anderen Sprachen variiert.
Frage 4: Gibt es ethische Bedenken hinsichtlich der Verwendung von Whisper?
A4: Ja, OpenAI rät dringend davon ab, die Software zur Transkription nicht einvernehmlicher Aufnahmen oder in risikoreichen Entscheidungsprozessen einzusetzen, da dies zu Ungenauigkeiten und Datenschutzbedenken führen kann. Nutzern wird empfohlen, die ethischen Richtlinien von OpenAI zu beachten.
Frage 5: Ist das Whisper-Modell Open Source?
A5: Ja, Whisper-Modelle werden unter der MIT-Lizenz veröffentlicht, was sowohl die kommerzielle als auch die nichtkommerzielle Nutzung durch Entwickler und Forscher ermöglicht.
KI-Spielplatz



Einloggen