



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'gpt-4o-audio-preview',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalle del producto
✨ Presentamos la vista previa de audio de GPT-4o
El Vista previa de audio de GPT-4o Marca el comienzo de una nueva era de interacción fluida entre humanos e IA, acortando la distancia entre el texto y el habla con una fluidez excepcional. Diseñado para conversaciones de voz en tiempo real e interpretación de audio sofisticada, es una herramienta indispensable para una amplia gama de aplicaciones, desde asistentes inteligentes hasta soluciones de accesibilidad avanzadas e interfaces de voz intuitivas.
🚀 Capacidades clave
- Capacidad de respuesta en tiempo real: Consiga un ritmo de conversación similar al humano con tiempos de respuesta de transcripción de audio y generación de voz que promedian solo ~320 milisegundos.
- Soporte de idiomas global: Comprensión y generación en más de 50 idiomas, con tokenización optimizada para escrituras no latinas, al servicio del 97 % de los hablantes a nivel mundial.
- Inteligencia emocional: El análisis avanzado de sentimientos combinado con la generación de voces matizadas permite una comunicación más rica y emocionalmente expresiva.
- Mayor confiabilidad: Se incorporan tasas de alucinaciones significativamente reducidas y mecanismos de seguridad robustos para garantizar resultados consistentes y confiables.
- Contexto extenso: Una gran ventana de contexto de hasta 128 000 tokens permite interacciones coherentes y de larga duración sin perder el hilo del flujo de la conversación.
💡 Aplicaciones previstas
- 🤖 Asistentes de voz: Potenciando experiencias de conversación naturales y en tiempo real.
- ♿ Herramientas de accesibilidad: Proporcionar interacción de audio intuitiva para usuarios con discapacidad visual y más.
- 📞 Atención al cliente: Ofrecer soporte rápido, expresivo y eficiente a través de canales de voz.
🌐 Capacidades lingüísticas
GPT-4o cuenta con soporte para más de 50 idiomas, que abarca aproximadamente al 97% de los hablantes del mundo. Su tokenización avanzada está optimizada específicamente para idiomas no latinos, lo que garantiza un alcance global amplio e inclusivo.
⚙️ Fundamentos técnicos
Arquitectura
El núcleo de GPT-4o se basa en el sólido Arquitectura del transformador, mejorado con una profunda integración multimodal. Procesa fluidamente tanto texto como audio dentro de un modelo unificado. Su canal de procesamiento de audio incorpora Detección de Actividad de Voz (VAD) avanzada para facilitar la generación de respuestas en tiempo real.
Datos de entrenamiento
El entrenamiento implicó una amplia y diversa gama de conjuntos de datos, que abarcan un amplio espectro de contenido textual y de audio. El corpus de audio incluye una rica colección de muestras de voz multilingües, diversos conjuntos de datos musicales, sonidos ambientales y datos de voz sintéticos meticulosamente elaborados.
Consideraciones sobre diversidad y sesgo
Si bien GPT-4o integra importantes medidas de seguridad para mitigar el sesgo, su rendimiento puede presentar variabilidad entre diferentes tareas, a menudo influenciado por los matices de las instrucciones o la calidad de la entrada. Entre los sesgos reconocidos se incluyen tasas de rechazo inconsistentes en tareas altamente complejas, como la verificación del hablante o la extracción de tono.
📊 Aspectos destacados del rendimiento
- ✅ Exactitud: Obtuvo resultados de vanguardia en puntos de referencia clave como Massive Multitask Language Understanding (MMLU), con una puntuación impresionante. 88.7El rendimiento puede variar en tareas altamente especializadas, como la clasificación del tono musical.
- ⚡ Velocidad: Cuenta con un tiempo de respuesta de audio promedio de 320 milisegundos, lo que permite un flujo de conversación casi instantáneo y natural.
- 🛡️ Robustez: Demuestra una sólida capacidad de generalización en una multitud de idiomas y acentos. Sin embargo, puede presentar dificultades con tareas extremadamente específicas o ambiguas, como la predicción de distancias espaciales o la estimación de la duración del audio.
🔌 Cómo empezar
Ejemplos de código
El acceso al modelo de vista previa de audio GPT-4o está disponible en Plataforma API de IA/ML bajo el identificador "gpt-4o-audio-preview"Intégrelo en sus aplicaciones utilizando las herramientas y ejemplos proporcionados.
Documentación de la API
Para obtener pautas completas e instrucciones de integración detalladas, consulte Documentación de la API Disponible en el sitio web de la API de IA/ML. Este recurso proporciona todo lo necesario para implementar GPT-4o correctamente.
Consideraciones éticas y licencias
Directrices éticas
OpenAI ha integrado estrictas consideraciones éticas durante el desarrollo de GPT-4o, priorizando la seguridad y una sólida mitigación de sesgos. El modelo se ha sometido a evaluaciones exhaustivas para garantizar su implementación responsable y beneficiosa en diversas aplicaciones.
Licencias
GPT-4o se ofrece bajo derechos de uso comercial, permitiendo a las empresas y desarrolladores integrar sin problemas este modelo avanzado en sus propias aplicaciones y servicios.
❓ Preguntas frecuentes (FAQ)
P1: ¿Para qué está diseñado principalmente la vista previa de audio GPT-4o?
A1: Está diseñado para una interacción fluida y en tiempo real entre texto y voz, lo que lo hace ideal para asistentes de voz, herramientas de accesibilidad y aplicaciones de atención al cliente que requieren conversaciones de voz naturales y similares a las humanas.
P2: ¿Qué tan rápido es el tiempo de respuesta de audio de GPT-4o?
A2: GPT-4o cuenta con un tiempo de respuesta de audio promedio de aproximadamente 320 milisegundos, lo que permite interacciones conversacionales casi instantáneas.
P3: ¿Qué idiomas admite GPT-4o?
A3: Admite más de 50 idiomas, que cubre aproximadamente el 97% de los hablantes del mundo, con tokenización optimizada para escrituras no latinas.
P4: ¿Pueden las empresas utilizar GPT-4o en sus aplicaciones?
A4: Sí, GPT-4o está disponible en derechos de uso comercial, permitiendo a las empresas integrar el modelo en sus propias aplicaciones.
Patio de juegos de IA



Acceso