



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Détails du produit
GPT-Audio, un système d'IA audio de pointe développé par OpenAI, représente une avancée majeure dans le domaine de la technologie audio. Il est capable d'interpréter et de générer une parole et un son haute fidélité avec une précision remarquable dans divers modes, notamment parole à parole, parole en texte, synthèse vocaleet avancé raisonnement audio multimodalCe système est conçu pour rationaliser à la fois les flux de travail vocaux et les solutions d'IA conversationnelle sophistiquées.
⚙️ Spécifications techniques
- Type de modèle : Modèle de base (architecture à transformateur)
- Modalités prises en charge : Audio (entrée/sortie), Texte (entrée/sortie), Raisonnement multimodal parole-texte-audio
- Formats d'entrée : WAV, MP3, FLAC, PCM
- Formats de sortie : WAV, MP3, FLAC (16 kHz ou 44,1 kHz(mono/stéréo)
- Langues : Couverture multilingue (plus de 50 langues et accents)
- Durée audio maximale : Jusqu'à 30 minutes par segment
🚀 Indicateurs de performance
- Taux d'erreur lexicale (WER) : sur des ensembles de données vocales standard (LibriSpeech, CommonVoice)
- MOS (Mean Opinion Score) pour la synthèse vocale : 4,8/5 (quasi parité humaine)
- Précision de la vérification du locuteur : 98,9%
- Latence de réaction : 600 ms en moyenne pour la synthèse vocale en temps réel
- Robustesse face au bruit ambiant : Fonctionne efficacement jusqu'à 85 dB bruit de fond
✨ Fonctionnalités clés
- Conversation en duplex intégral : Gère de manière transparente la reconnaissance et la synthèse vocales simultanées pour des interactions dynamiques.
- Contrôle des émotions et de l'intonation : Génère une production vocale remarquablement naturelle et expressive, avec des nuances émotionnelles finement nuancées.
- Identification du locuteur : Permet de différencier de manière fiable plusieurs locuteurs dans des environnements audio à plusieurs participants.
- Robustesse au bruit : Maintient une précision élevée même dans des environnements bruyants et dynamiques, assurant une communication claire.
- Profils vocaux personnalisés : Offre la possibilité de former ou de sélectionner des voix virtuelles, idéal pour garantir la cohérence de la marque ou l'accessibilité.
- Raisonnement multimodal : Intègre des indices audio, des données vocales et des invites textuelles pour une compréhension hybride et globale du contexte.
💰 Tarification de l'API audio GPT
- Saisir: 33,60 $ / 1 million de jetons audio; 2,63 $ / 1 million de jetons
- Sortir: 67,20 $ / 1 million de jetons de sortie; 10,50 $ / 1 million de jetons
💡 Cas d'utilisation
- Agents d'IA conversationnelle : Nous proposons un service client avancé, des chatbots vocaux intelligents et des assistants numériques réactifs.
- Outils d'accessibilité : Permettre la transcription vocale en temps réel pour les événements en direct et une traduction vocale efficace pour la communication mondiale.
- Création de contenu : Faciliter la narration automatisée pour les articles, la production de podcasts professionnels et les livres audio interactifs.
- Raisonnement vocal : Amélioration des capacités de recherche audio, des interfaces de commande vocale intuitives et des analyses multimodales sophistiquées pour des informations plus approfondies.
Exemple de code
// Exemple : Intégration de l’API GPT-Audio pour la synthèse vocale
// Pour une implémentation détaillée et des exemples de code complets, veuillez vous référer à la documentation officielle de l'API d'OpenAI.
🆚 Comparaison avec d'autres modèles
contre OpenAI Whisper : GPT-Audio offre une gamme de fonctionnalités plus étendue, notamment la synthèse vocale expressive, allant au-delà des capacités de transcription de Whisper.
par rapport à OpenAI GPT-4o (Omni) : Bien que GPT-4o soit un modèle multimodal phare prenant en charge des entrées vocales, textuelles, visuelles et audio complètes, GPT-Audio est spécifiquement optimisé Pour les tâches audio haute fidélité, il offre une précision de reconnaissance vocale supérieure et une synthèse vocale plus naturelle et expressive, ce qui en fait le choix idéal pour les besoins complexes de traitement audio.
vs Deepgram Aura : Deepgram Aura excelle dans le contrôle précis des profils vocaux pour des expériences vocales hautement personnalisées. Cependant, GPT-Audio se distingue par l'intégration d'un couche de raisonnement audio multimodale complète, offrant une compréhension contextuelle plus approfondie des entrées audio.
❓ Foire aux questions (FAQ)
A: GPT-Audio prend en charge la conversion de la parole en parole, la conversion de la parole en texte, la conversion du texte en parole et le raisonnement audio multimodal, couvrant un large éventail de fonctionnalités d'IA audio.
A: GPT-Audio génère une sortie vocale très naturelle et expressive grâce à ses capacités avancées de contrôle des émotions et de l'intonation, atteignant une parité quasi humaine.
R : Oui, GPT-Audio offre une gestion du bruit robuste et peut fonctionner avec précision même avec des niveaux de bruit de fond allant jusqu'à 85 dB, ce qui le rend adapté à diverses situations réelles.
A: Alors que GPT-4o est une IA multimodale à usage général, GPT-Audio est hautement spécialisé et optimisé pour les tâches audio haute fidélité, offrant une précision de reconnaissance vocale supérieure et une sortie TTS plus naturelle et expressive spécifiquement pour le traitement audio.
R : Absolument. GPT-Audio permet l'entraînement ou la sélection de profils vocaux virtuels personnalisés, offrant ainsi la possibilité d'une personnalisation de marque, de voix de personnages ou de répondre à des besoins d'accessibilité spécifiques.
Terrain de jeu de l'IA



Se connecter