128K

Dans

Dehors

Chat

désactiver

Audio GPT

Qu’il s’agisse de reconnaître des énoncés complexes, de synthétiser des réponses expressives ou de raisonner entre différentes modalités, il reste remarquablement réactif et adaptable.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const answer = await api.chat.completions.create({
    model: 'openai/gpt-audio',
    modalities: ['text', 'audio'],
    audio: { voice: 'alloy', format: 'wav' },
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  console.log(answer.choices[0]);

  writeFileSync(
    'answer.wav',
    Buffer.from(answer.choices[0].message.audio.data, 'base64'),
    { encoding: 'utf-8' }
  );
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="openai/gpt-audio",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

print(response.choices[0])

wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
    f.write(wav_bytes)

Docs

Plus de 300 modèles d'IA pour OpenClaw et agents IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

Audio GPT

Détails du produit

GPT-Audio, un système d'IA audio de pointe développé par OpenAI, représente une avancée majeure dans le domaine de la technologie audio. Il est capable d'interpréter et de générer une parole et un son haute fidélité avec une précision remarquable dans divers modes, notamment parole à parole, parole en texte, synthèse vocaleet avancé raisonnement audio multimodalCe système est conçu pour rationaliser à la fois les flux de travail vocaux et les solutions d'IA conversationnelle sophistiquées.

⚙️ Spécifications techniques

Type de modèle : Modèle de base (architecture à transformateur)
Modalités prises en charge : Audio (entrée/sortie), Texte (entrée/sortie), Raisonnement multimodal parole-texte-audio
Formats d'entrée : WAV, MP3, FLAC, PCM
Formats de sortie : WAV, MP3, FLAC (16 kHz ou 44,1 kHz(mono/stéréo)
Langues : Couverture multilingue (plus de 50 langues et accents)
Durée audio maximale : Jusqu'à 30 minutes par segment

🚀 Indicateurs de performance

Taux d'erreur lexicale (WER) : sur des ensembles de données vocales standard (LibriSpeech, CommonVoice)
MOS (Mean Opinion Score) pour la synthèse vocale : 4,8/5 (quasi parité humaine)
Précision de la vérification du locuteur : 98,9%
Latence de réaction : 600 ms en moyenne pour la synthèse vocale en temps réel
Robustesse face au bruit ambiant : Fonctionne efficacement jusqu'à 85 dB bruit de fond

✨ Fonctionnalités clés

Conversation en duplex intégral : Gère de manière transparente la reconnaissance et la synthèse vocales simultanées pour des interactions dynamiques.
Contrôle des émotions et de l'intonation : Génère une production vocale remarquablement naturelle et expressive, avec des nuances émotionnelles finement nuancées.
Identification du locuteur : Permet de différencier de manière fiable plusieurs locuteurs dans des environnements audio à plusieurs participants.
Robustesse au bruit : Maintient une précision élevée même dans des environnements bruyants et dynamiques, assurant une communication claire.
Profils vocaux personnalisés : Offre la possibilité de former ou de sélectionner des voix virtuelles, idéal pour garantir la cohérence de la marque ou l'accessibilité.
Raisonnement multimodal : Intègre des indices audio, des données vocales et des invites textuelles pour une compréhension hybride et globale du contexte.

💰 Tarification de l'API audio GPT

Saisir: 33,60 $ / 1 million de jetons audio; 2,63 $ / 1 million de jetons
Sortir: 67,20 $ / 1 million de jetons de sortie; 10,50 $ / 1 million de jetons

💡 Cas d'utilisation

Agents d'IA conversationnelle : Nous proposons un service client avancé, des chatbots vocaux intelligents et des assistants numériques réactifs.
Outils d'accessibilité : Permettre la transcription vocale en temps réel pour les événements en direct et une traduction vocale efficace pour la communication mondiale.
Création de contenu : Faciliter la narration automatisée pour les articles, la production de podcasts professionnels et les livres audio interactifs.
Raisonnement vocal : Amélioration des capacités de recherche audio, des interfaces de commande vocale intuitives et des analyses multimodales sophistiquées pour des informations plus approfondies.

Exemple de code

 
// Exemple : Intégration de l’API GPT-Audio pour la synthèse vocale
// Pour une implémentation détaillée et des exemples de code complets, veuillez vous référer à la documentation officielle de l'API d'OpenAI.         

🆚 Comparaison avec d'autres modèles

contre OpenAI Whisper : GPT-Audio offre une gamme de fonctionnalités plus étendue, notamment la synthèse vocale expressive, allant au-delà des capacités de transcription de Whisper.

par rapport à OpenAI GPT-4o (Omni) : Bien que GPT-4o soit un modèle multimodal phare prenant en charge des entrées vocales, textuelles, visuelles et audio complètes, GPT-Audio est spécifiquement optimisé Pour les tâches audio haute fidélité, il offre une précision de reconnaissance vocale supérieure et une synthèse vocale plus naturelle et expressive, ce qui en fait le choix idéal pour les besoins complexes de traitement audio.

vs Deepgram Aura : Deepgram Aura excelle dans le contrôle précis des profils vocaux pour des expériences vocales hautement personnalisées. Cependant, GPT-Audio se distingue par l'intégration d'un couche de raisonnement audio multimodale complète, offrant une compréhension contextuelle plus approfondie des entrées audio.

❓ Foire aux questions (FAQ)

Q : Quels sont les principaux modes pris en charge par GPT-Audio ?
A: GPT-Audio prend en charge la conversion de la parole en parole, la conversion de la parole en texte, la conversion du texte en parole et le raisonnement audio multimodal, couvrant un large éventail de fonctionnalités d'IA audio.

Q : Dans quelle mesure la parole générée par GPT-Audio est-elle naturelle ?
A: GPT-Audio génère une sortie vocale très naturelle et expressive grâce à ses capacités avancées de contrôle des émotions et de l'intonation, atteignant une parité quasi humaine.

Q : GPT-Audio peut-il fonctionner avec précision dans des environnements bruyants ?
R : Oui, GPT-Audio offre une gestion du bruit robuste et peut fonctionner avec précision même avec des niveaux de bruit de fond allant jusqu'à 85 dB, ce qui le rend adapté à diverses situations réelles.

Q : Quelle est la principale différence entre GPT-Audio et GPT-4o d'OpenAI ?
A: Alors que GPT-4o est une IA multimodale à usage général, GPT-Audio est hautement spécialisé et optimisé pour les tâches audio haute fidélité, offrant une précision de reconnaissance vocale supérieure et une sortie TTS plus naturelle et expressive spécifiquement pour le traitement audio.

Q : Est-il possible de personnaliser les profils vocaux avec GPT-Audio ?
R : Absolument. GPT-Audio permet l'entraînement ou la sélection de profils vocaux virtuels personnalisés, offrant ainsi la possibilité d'une personnalisation de marque, de voix de personnages ou de répondre à des besoins d'accessibilité spécifiques.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts

Jetons gratuits de 1 $ pour les nouveaux membres