



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalle del producto
GPT-Audio, un sistema de IA de audio de vanguardia de OpenAI, representa un avance significativo en la tecnología de audio. Es capaz de interpretar y generar voz y audio de alta fidelidad con una precisión notable en varios modos, incluyendo voz a voz, voz a texto, texto a voz, y avanzado razonamiento de audio multimodalEste sistema está diseñado para optimizar tanto los flujos de trabajo controlados por voz como las sofisticadas soluciones de inteligencia artificial conversacional.
⚙️ Especificaciones técnicas
- Tipo de modelo: Modelo de Fundación (Arquitectura basada en transformadores)
- Modalidades admitidas: Audio (entrada/salida), Texto (entrada/salida), Razonamiento multimodal voz-texto-audio
- Formatos de entrada: WAV, MP3, FLAC, PCM
- Formatos de salida: WAV, MP3, FLAC (16 kHz o 44,1 kHz(mono/estéreo)
- Idiomas: Cobertura multilingüe (más de 50 idiomas y acentos)
- Duración máxima del audio: Arriba a 30 minutos por segmento
🚀 Puntos de referencia de rendimiento
- Tasa de error de palabras (WER): sobre conjuntos de datos de voz estándar (LibriSpeech, CommonVoice)
- MOS (puntuación media de opinión) para síntesis de voz: 4.8/5 (casi la paridad humana)
- Precisión de verificación del hablante: 98,9%
- Latencia de reacción: Promedio de 600 ms para TTS en tiempo real
- Robustez al ruido ambiental: Funciona eficazmente hasta 85 dB ruido de fondo
✨ Características principales
- Conversación full-duplex: Maneja sin problemas el reconocimiento y síntesis de voz simultáneos para interacciones dinámicas.
- Control de la emoción y la entonación: Genera un discurso extraordinariamente natural y expresivo con matices emocionales perfectamente afinados.
- Identificación del orador: Diferencia de forma confiable a varios hablantes en entornos de audio con múltiples participantes.
- Robustez al ruido: Mantiene una alta precisión incluso en entornos ruidosos y dinámicos, lo que garantiza una comunicación clara.
- Perfiles de voz personalizados: Ofrece la posibilidad de entrenar o seleccionar voces virtuales, perfecto para la coherencia de la marca o la accesibilidad.
- Razonamiento multimodal: Integra señales de audio, datos hablados e indicaciones textuales para una comprensión integral e híbrida del contexto.
Precios de la API de audio GPT
- Aporte: $33.60 / 1 millón de tokens de audio; $2,63 / 1 millón de tokens
- Producción: $67,20 / 1 millón de tokens de salida; $10,50 / 1 millón de tokens
💡 Casos de uso
- Agentes de IA conversacional: Impulsamos un servicio al cliente avanzado, chatbots de voz inteligentes y asistentes digitales receptivos.
- Herramientas de accesibilidad: Habilitación de subtítulos de voz a texto en tiempo real para eventos en vivo y traducción de voz eficiente para la comunicación global.
- Creación de contenido: Facilitamos la narración automatizada para artículos, producción profesional de podcasts y audiolibros interactivos.
- Razonamiento basado en la voz: Mejora de las capacidades de búsqueda de audio, interfaces de comandos hablados intuitivas y análisis multimodales sofisticados para obtener información más profunda.
Ejemplo de código
// Ejemplo: Integración de la API GPT-Audio para texto a voz
// Para obtener una implementación detallada y ejemplos de código completos, consulte la documentación oficial de la API de OpenAI.
🆚 Comparación con otros modelos
frente a OpenAI Whisper: GPT-Audio ofrece una gama más amplia de funcionalidades, que incluye en particular síntesis de voz expresiva, yendo más allá de las capacidades centradas en la transcripción de Whisper.
frente a OpenAI GPT-4o (Omni): Si bien GPT-4o es un modelo multimodal insignia que admite entradas integrales de voz, texto, visión y audio, GPT-Audio está específicamente optimizado Para tareas de audio de alta fidelidad. Ofrece una precisión superior en el reconocimiento de voz y una conversión de texto a voz más natural y expresiva, lo que lo convierte en la opción ideal para necesidades complejas de procesamiento de audio.
vs Deepgram Aura: Deepgram Aura destaca por su control granular de perfiles de voz para experiencias de voz altamente personalizadas. Sin embargo, GPT-Audio se distingue por incorporar... capa de razonamiento de audio multimodal completa, proporcionando una comprensión contextual más profunda de las entradas de audio.
❓ Preguntas frecuentes (FAQ)
R: GPT-Audio admite conversión de voz a voz, de voz a texto, de texto a voz y razonamiento de audio multimodal, cubriendo una amplia gama de funcionalidades de IA de audio.
A: GPT-Audio genera una salida de voz altamente natural y expresiva gracias a sus capacidades avanzadas de control de emociones y entonación, logrando una paridad casi humana.
R: Sí, GPT-Audio cuenta con un manejo de ruido robusto y puede funcionar con precisión incluso con niveles de ruido de fondo de hasta 85 dB, lo que lo hace adecuado para diversas configuraciones del mundo real.
R: Mientras que GPT-4o es una IA multimodal de propósito general, GPT-Audio está altamente especializada y optimizada para tareas de audio de alta fidelidad, ofreciendo una precisión de reconocimiento de voz superior y una salida TTS más natural y expresiva específicamente para el procesamiento de audio.
R: Por supuesto. GPT-Audio permite entrenar o seleccionar perfiles de voz virtuales personalizados, lo que permite crear una marca única, voces de personajes o satisfacer necesidades específicas de accesibilidad.
Patio de juegos de IA



Acceso