



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'openai/gpt-4o-mini-transcribe',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "openai/gpt-4o-mini-transcribe",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Détails du produit
🎙️ Présentation de l'API de mini-transcription GPT-4o
Le API de transcription GPT-4o Mini d'OpenAI est une avancée révolutionnaire modèle de transcription vocale Conçu pour une précision exceptionnelle et une efficacité inégalée. Version allégée et plus rapide du modèle GPT-4o Transcribe complet, il est spécifiquement optimisé pour faible latence et une consommation de ressources réduite, tout en maintenant une qualité de transcription supérieure. Cette API est une solution idéale pour les développeurs à la recherche de fonctionnalités avancées. reconnaissance vocale rapide et fiable dans des environnements acoustiques divers et complexes.
⚙️ Spécifications techniques
- Type de modèle : Modèle de transcription vocale en texte
- Base architecturale : Construit sur l'architecture GPT-4o-mini, pré-entraîné sur des ensembles de données spécialisés axés sur l'audio
- Fenêtre de contexte du jeton : Prend en charge les entrées audio longues avec jusqu'à 16 000 jetons (fenêtre contextuelle).
- Nombre maximal de jetons de sortie : Jusqu'à 2 000 jetons par transcription.
- Données d'entraînement : Des ensembles de données audio diversifiés et de haute qualité, comprenant différents accents, conditions de bruit et vitesses de parole.
- Techniques d'entraînement : Réglage fin supervisé et apprentissage par renforcement pour minimiser le taux d'erreurs de mots et les hallucinations
📊 Indicateurs de performance
- Taux d'erreur lexicale (WER) : Amélioration significative par rapport aux modèles Whisper précédents et aux modèles de référence similaires.
- Fiabilité: Offre des performances optimales dans les environnements bruyants, avec des accents variés et des débits de parole différents.
- Reconnaissance du langage : Amélioration de la précision et des capacités de compréhension linguistique dans plusieurs langues
✨ Caractéristiques principales
- Efficacité: Un modèle léger offrant des temps d'inférence rapides pour une transcription rapide.
- Robustesse : Gère parfaitement les entrées audio difficiles, notamment le bruit de fond, les accents variés et les variations de la parole.
- Évolutivité : Capable de transcrire de longs flux audio sans perte de contexte, grâce à sa généreuse fenêtre de contexte de 16 000 jetons.
- Capacité de diffusion en continu : Permet la diffusion audio continue et la transcription en temps réel.
- Intégration personnalisable : Conçu pour une intégration transparente dans diverses applications telles que les agents vocaux, les centres d'appels, les services de transcription et les outils de gestion de réunions.
💸 Tarification de l'API GPT-4o Mini Transcribe
Coût: 0,63 $ par million de jetons d'entrée
🎯 Cas d'utilisation pratiques
- Service client: Transcription et analyse des appels pour un service et des informations améliorés.
- Productivité: Prise de notes automatisée pour les réunions et les conférences.
- Assistants vocaux : Alimenter les capacités de transcription des assistants vocaux et des agents vocaux.
- Transcription spécialisée : Services de dictée juridique et médicale.
💻 Exemple de code
⚖️ Comparaison avec d'autres modèles
vs. GPT-4o Transcription
Le Mini-transcription GPT-4o excelle dans applications à faible latence où la vitesse est primordiale. En revanche, le modèle GPT-4o Transcribe complet est mieux adapté à environnements critiques en matière de précision comme la transcription juridique ou médicale, où même des erreurs mineures peuvent avoir des conséquences importantes.
contre OpenAI Whisper-Large
Mini-transcription GPT-4o démontre des performances supérieures à celles de Whisper-Large en termes de Taux d'erreur sur les mots (WER) et latence de streamingCet avantage est largement dû à ses techniques d'apprentissage par renforcement avancées et à son entraînement audio spécialisé. Bien que Whisper soit un modèle plus généraliste, il présente généralement un traitement plus lent et une précision réduite face à un son bruité ou à une parole accentuée.
contre Eleven Labs Scribe
Les deux modèles sont très performants en transcription en continu. Selon certains tests réalisés par des tiers, Eleven Labs Scribe peut égaler, voire légèrement surpasser, GPT-4o Mini Transcribe sur certains critères de précision. Cependant, Vitesse du GPT-4o Mini et son intégration harmonieuse au sein L'écosystème étendu d'OpenAI demeurent des avantages concurrentiels importants.
❓ Foire aux questions (FAQ)
Q1 : À quoi sert l’API GPT-4o Mini Transcribe ?
UN: Il est conçu pour une transcription vocale en texte très précise et efficace, optimisé pour une faible latence et une consommation de ressources réduite, ce qui le rend idéal pour les applications en temps réel et les développeurs ayant besoin d'un traitement audio rapide et fiable.
Q2 : Comment se compare-t-il au modèle GPT-4o Transcribe complet ?
UN: GPT-4o Mini Transcribe privilégie la vitesse et l'efficacité pour les utilisations à faible latence, tandis que GPT-4o Transcribe complet se concentre sur une précision maximale pour les applications critiques telles que la transcription juridique ou médicale.
Q3 : GPT-4o Mini Transcribe peut-il gérer un son bruité ou différents accents ?
UN: Oui, il est conçu avec des capacités robustes pour fonctionner de manière fiable dans des environnements acoustiques difficiles, gérant efficacement le bruit de fond, les accents divers et les vitesses de parole variables.
Q4 : Quels sont les principaux cas d’utilisation de cette API ?
UN: Les principaux cas d'utilisation comprennent la transcription et l'analyse des appels du service client, la prise de notes lors de réunions et de conférences, l'alimentation des assistants vocaux et des services spécialisés comme la dictée juridique et médicale.
Q5 : La transcription en continu est-elle prise en charge ?
UN: Absolument. GPT-4o Mini Transcribe prend en charge la diffusion audio continue et offre des capacités de transcription en temps réel.
Terrain de jeu de l'IA



Se connecter