



import { writeFileSync } from 'node:fs';
import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const answer = await api.chat.completions.create({
model: 'openai/gpt-audio-mini',
modalities: ['text', 'audio'],
audio: { voice: 'alloy', format: 'wav' },
messages: [
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
console.log(answer.choices[0]);
writeFileSync(
'answer.wav',
Buffer.from(answer.choices[0].message.audio.data, 'base64'),
{ encoding: 'utf-8' }
);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="openai/gpt-audio-mini",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
print(response.choices[0])
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("answer.wav", "wb") as f:
f.write(wav_bytes)

Detalles del producto
🚀 Presentamos la API GPT Audio Mini: Síntesis de voz en tiempo real para aplicaciones modernas.
El Mini audio GPT Es una variante de vanguardia y ligera de la familia GPT Audio, diseñada específicamente para la generación de voz de alta eficiencia y baja latencia. Este potente modelo es ideal para aplicaciones interactivas en tiempo real, como asistentes de voz avanzados, chatbots inteligentes y software de dictado, donde la respuesta instantánea y el mínimo consumo de recursos son fundamentales. Combina a la perfección una salida de audio de alta calidad con una velocidad excepcional, lo que la convierte en la solución ideal para su implementación en dispositivos periféricos o en servicios con capacidades computacionales limitadas.
⚙️ Especificaciones técnicas
- Tipo de modelo: Modelo de conversión de texto a voz (TTS) neuronal autorregresivo ligero
- Recuento de parámetros: Aproximadamente 100 millones de parámetros
- Modalidades de entrada: Secuencias de entrada de texto
- Modalidades de salida: Generación de formas de onda de audio
- Frecuencia de muestreo: Calidad de salida estándar de 24 kHz
- Estado latente: Tiempo de respuesta promedio en 100 ms en dispositivos de borde típicos
- Idiomas compatibles: Inglés (principal), con apoyo multilingüe previsto.
- Arquitectura del modelo: Codificador-decodificador modificado basado en transformador
- Compatibilidad de hardware: CPU y GPU optimizadas para inferencia en dispositivos de consumo convencionales.
📊 Puntos de referencia de rendimiento
- Naturalidad del habla: MOS (Puntuación media de opinión) alrededor 4.1/5 en pruebas de usuario
- Comparación de latencia: 30-40% más rápido que GPT-Audio a escala completa en hardware estándar
- Uso de recursos: Opera en Consumo de RAM entre un 50 % y un 60 % menor que el modelo base GPT-Audio
- Robustez: Mantiene la inteligibilidad con hasta 15 dB de ruido de fondo.
✨ Características principales del GPT Audio Mini
- Síntesis de voz de baja latencia: La arquitectura optimizada garantiza una latencia mínima para la interacción en tiempo real.
- Diseño eficiente en el uso de recursos: Diseñado para un bajo consumo de energía y un tamaño de memoria reducido, perfecto para entornos con recursos limitados.
- Generación de voz versátil: Capaz de producir un habla con sonido natural en diversos estilos y contextos.
- Tamaño del modelo compacto: Facilita la integración en entornos ligeros y plataformas móviles.
- Robusto en entornos ruidosos: Mantiene una claridad e inteligibilidad excepcionales incluso en condiciones acústicas difíciles.
- Salidas de voz personalizables: Permite realizar ajustes precisos para alinearlos con la identidad de marca específica o los requisitos específicos de la aplicación.
💰 Precios de la API de GPT Audio Mini
- Aporte: $10.50 / 1M de tokens de audio; $0,63 / 1 millón de tokens (entrada de texto)
- Producción: $21.00 / 1M de producción; $2,52 / 1 millón de tokens (salida de audio)
💡 Casos de uso comunes
- Asistentes de voz: Permite respuestas de voz fluidas y naturales con un mínimo de retraso.
- Bots de atención al cliente: Ofrecemos síntesis de voz clara y atractiva para centros de llamadas y plataformas de chat en línea.
- Aplicaciones de dictado: Proporciona retroalimentación de transcripción a voz en tiempo real para una mejor experiencia de usuario.
- Herramientas educativas interactivas: Generación de voz dinámica para programas de tutoría o aprendizaje de idiomas.
- Herramientas de accesibilidad: Proporcionando energía a las tecnologías de asistencia para usuarios con discapacidades visuales o motoras.
- Dispositivos IoT: Integración de funciones de control por voz en dispositivos inteligentes con recursos de hardware limitados.
💻 Ejemplo de código
🆚 Comparación con otros modelos líderes
vs GPT-4o Mini TTS: Si bien el GPT-4o Mini TTS ofrece un control mejorado sobre la entonación y el estilo con el desacoplamiento de la huella de voz, lo que resulta en un habla ligeramente más natural y expresiva, Mini audio GPT Está optimizado específicamente para ofrecer un tiempo de respuesta ligeramente más rápido y un menor consumo de memoria, lo que lo hace ideal para la computación perimetral.
vs OpenAI TTS-1: Mini audio GPT GPT Audio Mini supera significativamente a TTS-1 en velocidad de generación y mantiene una mayor naturalidad en el habla. Mientras que TTS-1 busca una síntesis rápida, GPT Audio Mini combina velocidad con una mayor claridad de audio, lo que lo hace más adecuado para aplicaciones exigentes de asistentes de voz interactivos.
vs OpenAI Whisper: OpenAI Whisper destaca por su compatibilidad con varios idiomas y su precisión en la transcripción, más que por su síntesis de baja latencia. Mini audio GPT Está diseñado para escenarios interactivos que requieren una generación de voz rápida, con un enfoque principal en el inglés y próximamente incluirá funciones multilingües.
vs ElevenLabs Turbo: ElevenLabs Turbo prioriza la velocidad, pero depende exclusivamente de la inferencia en la nube y carece de soporte sin conexión. Mini audio GPT Ofrece una calidad comparable a la vez que proporciona total privacidad en el dispositivo y una portabilidad multiplataforma superior.
❓ Preguntas frecuentes (FAQ)
P: ¿Cuál es el propósito principal de GPT Audio Mini?
A: GPT Audio Mini está diseñado para la generación de voz eficiente y de baja latencia, y está dirigido a aplicaciones interactivas en tiempo real como asistentes de voz y chatbots, donde la capacidad de respuesta y el ahorro de recursos son cruciales.
P: ¿Cómo logra GPT Audio Mini una baja latencia?
R: Utiliza una arquitectura optimizada que minimiza los retrasos de procesamiento, lo que da como resultado un tiempo de respuesta promedio inferior a 100 milisegundos en dispositivos periféricos típicos.
P: ¿Es GPT Audio Mini adecuado para dispositivos con recursos limitados?
R: Sí, está diseñado para ser eficiente en el uso de recursos, con un consumo de RAM entre un 50 % y un 60 % menor que el modelo GPT-Audio básico, lo que lo hace ideal para implementaciones en el borde de la red y dispositivos IoT.
P: ¿Se puede personalizar GPT Audio Mini para estilos de voz específicos?
R: Por supuesto. Ofrece salidas de voz personalizables, lo que permite ajustarlas para que coincidan con la voz de la marca o las necesidades específicas de la aplicación.
P: ¿Qué idiomas admite GPT Audio Mini?
R: Actualmente, es compatible principalmente con el inglés, aunque se prevé ampliar la compatibilidad multilingüe en futuras actualizaciones.
Campo de juegos de IA



Acceso