



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalles del producto
GPT-Audio, un sistema de IA de audio de última generación de OpenAI, representa un salto significativo en la tecnología de audio. Es capaz de interpretar y generar voz y audio de alta fidelidad con una precisión notable en varios modos, incluyendo: conversión de voz a voz, conversión de voz a texto, texto a vozy avanzado razonamiento de audio multimodalEste sistema está diseñado para optimizar tanto los flujos de trabajo controlados por voz como las sofisticadas soluciones de IA conversacional.
⚙️ Especificaciones técnicas
- Tipo de modelo: Modelo de Fundación (arquitectura basada en transformadores)
- Modalidades compatibles: Audio (entrada/salida), Texto (entrada/salida), Razonamiento multimodal de voz-texto-audio
- Formatos de entrada: WAV, MP3, FLAC, PCM
- Formatos de salida: WAV, MP3, FLAC (16 kHz o 44,1 kHz(mono/estéreo)
- Idiomas: Cobertura multilingüe (más de 50 idiomas y acentos)
- Duración máxima del audio: Arriba a 30 minutos por segmento
🚀 Puntos de referencia de rendimiento
- Tasa de error de palabras (WER): en conjuntos de datos de voz estándar (LibriSpeech, CommonVoice)
- MOS (Puntuación Media de Opinión) para la síntesis de voz: 4,8/5 (paridad casi humana)
- Precisión en la verificación del hablante: 98,9%
- Latencia de reacción: promedio de 600 ms para síntesis de voz en tiempo real
- Resistencia al ruido ambiental: Funciona eficazmente hasta 85 dB ruido de fondo
✨ Características principales
- Conversación dúplex completa: Gestiona a la perfección el reconocimiento y la síntesis de voz simultáneos para interacciones dinámicas.
- Control de la emoción y la entonación: Genera un habla extraordinariamente natural y expresiva, con matices emocionales finamente ajustados.
- Identificación del hablante: Diferencia de forma fiable a varios interlocutores en entornos de audio con múltiples participantes.
- Resistencia al ruido: Mantiene una alta precisión incluso en entornos ruidosos y dinámicos, lo que garantiza una comunicación clara.
- Perfiles de voz personalizados: Ofrece la posibilidad de entrenar o seleccionar voces virtuales, ideal para la coherencia de la marca o la accesibilidad.
- Razonamiento multimodal: Integra señales de audio, datos hablados e indicaciones textuales para una comprensión integral e híbrida del contexto.
💰 Precios de la API de audio GPT
- Aporte: $33.60 / 1M de tokens de audio; 2,63 $ / 1 millón de tokens
- Producción: $67.20 / 1M tokens de salida; $10.50 / 1M tokens
💡 Casos de uso
- Agentes de IA conversacionales: Impulsamos un servicio al cliente avanzado, chatbots de voz inteligentes y asistentes digitales receptivos.
- Herramientas de accesibilidad: Permite la generación de subtítulos en tiempo real mediante la conversión de voz a texto para eventos en directo y una traducción de voz eficiente para la comunicación global.
- Creación de contenido: Facilitamos la narración automatizada de artículos, la producción profesional de podcasts y los audiolibros interactivos.
- Razonamiento basado en la voz: Mejora de las capacidades de búsqueda de audio, interfaces intuitivas de comandos de voz y análisis multimodales sofisticados para obtener información más detallada.
Ejemplo de código
// Ejemplo: Integración de la API GPT-Audio para la conversión de texto a voz
// Para obtener información detallada sobre la implementación y ejemplos de código completos, consulte la documentación oficial de la API de OpenAI.
🆚 Comparación con otros modelos
vs OpenAI Whisper: GPT-Audio ofrece una gama más amplia de funcionalidades, que incluye, en particular, la síntesis de voz expresiva, yendo más allá de las capacidades de transcripción de Whisper.
vs OpenAI GPT-4o (Omni): Si bien GPT-4o es un modelo multimodal emblemático que admite entradas de voz, texto, visión y audio completas, GPT-Audio está optimizado específicamente Para tareas de audio de alta fidelidad, ofrece una precisión superior en el reconocimiento de voz y una conversión de texto a voz más natural y expresiva, lo que la convierte en la opción especializada para necesidades complejas de procesamiento de audio.
vs Deepgram Aura: Deepgram Aura destaca por su control granular del perfil de voz para experiencias de voz altamente personalizadas. Sin embargo, GPT-Audio se distingue por incorporar una capa de razonamiento de audio multimodal completa, lo que proporciona una comprensión contextual más profunda de las entradas de audio.
❓ Preguntas frecuentes (FAQ)
A: GPT-Audio admite la conversión de voz a voz, de voz a texto, de texto a voz y el razonamiento de audio multimodal, abarcando una amplia gama de funcionalidades de IA de audio.
A: GPT-Audio genera una salida de voz muy natural y expresiva gracias a sus avanzadas capacidades de control de emociones e entonación, logrando una paridad casi humana.
R: Sí, GPT-Audio ofrece un manejo de ruido robusto y puede funcionar con precisión incluso con niveles de ruido de fondo de hasta 85 dB, lo que lo hace adecuado para diversos entornos del mundo real.
A: Si bien GPT-4o es una IA multimodal de propósito general, GPT-Audio está altamente especializada y optimizada para tareas de audio de alta fidelidad, ofreciendo una precisión superior en el reconocimiento de voz y una salida TTS más natural y expresiva específicamente para el procesamiento de audio.
R: Por supuesto. GPT-Audio permite entrenar o seleccionar perfiles de voz virtuales personalizados, lo que posibilita la creación de marcas únicas, voces de personajes o necesidades específicas de accesibilidad.
Campo de juegos de IA



Acceso