



import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const response = await api.chat.completions.create({
model: 'alibaba/qwen3-omni-30b-a3b-captioner',
messages: [
{
role: 'user',
content: [
{
type: 'input_audio',
input_audio: {
data: 'https://cdn.ai.cc/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3'
}
}
]
}
],
});
console.log(response.choices[0].message.content);
};
main();
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-omni-30b-a3b-captioner",
messages=[
{
"role": "user",
"content": [
{
"type": "input_audio",
"input_audio": {
"data": "https://cdn.aimlapi.com/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
}
}
]
},
],
)
print(response.choices[0].message.content)

Detalles del producto
Presentamos Qwen3-Omni Captioner: una potente IA multilingüe y omnimodal.
Descubrir Qwen3-Omni Subtituladora, el modelo base multilingüe omnimodal de última generación y de extremo a extremo nativo de Alibaba Cloud. Diseñado para redefinir la interacción de la IA, procesa sin problemas diversas entradas, incluyendo texto, imágenes, audio y vídeoEste innovador modelo ofrece respuestas en tiempo real mediante texto y voz naturales, manteniendo un rendimiento excepcional en todas las modalidades sin degradación. Qwen3-Omni se posiciona como una solución líder de IA multimodal, con capacidades sin precedentes.
⚙️Análisis técnico en profundidad
- Arquitectura del pensador-conversador: Este diseño único separa inteligentemente la generación de texto (el Pensador) de la síntesis de voz en tiempo real (la HabladorEsto permite un procesamiento altamente especializado y eficiente para ambas tareas distintas.
- Transmisión de latencia ultrabaja: El componente Talker predice secuencias de múltiples libros de códigos de forma autorregresiva. Su módulo Multi-Token Predictor (MTP) genera libros de códigos residuales para el fotograma de audio actual, que luego son sintetizados incrementalmente en una forma de onda por el renderizador Code2Wav. Este sofisticado proceso garantiza salida de audio fluida y en tiempo real.
- Codificador de audio AuT: El codificador AuT, que impulsa las capacidades de audio del modelo, se entrena meticulosamente en un extenso conjunto de datos. 20 millones de horas de datos de audioEste extenso entrenamiento proporciona una extracción de características de audio excepcionalmente sólida y generalizable.
- Arquitectura del Ministerio de Educación: Los subsistemas Pensador y Hablador están construidos sobre Mezcla de expertos (MoE) modelos. Esta arquitectura facilita una alta concurrencia y una inferencia rápida al activar solo un subconjunto de parámetros por token, lo que resulta en una eficiencia superior.
📊Aspectos destacados de la actuación
Qwen3-Omni se establece como líder, logrando Resultados de vanguardia en 22 de los 36 parámetros de referencia de audio y audiovisuales.En varios aspectos del rendimiento, supera notablemente a modelos de código cerrado robustos, como Gemini 2.5 Pro y GPT-4o-Transcribe.
- Comprensión de textos: Demuestra un rendimiento competitivo frente a los mejores modelos en tareas de MMLU, GPQA, razonamiento y código complejo.
- Reconocimiento de audio (ASR): Logra un Tasa de error de palabras (WER) igual o superior a la de Seed-ASR y GPT-4o-Transcribe. en numerosos conjuntos de datos.
- Razonamiento multimodal: Demuestra un rendimiento sólido en pruebas comparativas exigentes de respuesta a preguntas audiovisuales y descripción de vídeo exhaustiva.
- Generación de voz: Ofrece alta calidad síntesis de voz multilingüemanteniendo una identidad de hablante coherente en 10 idiomas diferentes.
- Latencia de transmisión: Cuenta con una impresionante Latencia ultrabaja del primer paquete de aproximadamente 211 ms., lo que garantiza respuestas de voz casi instantáneas.
- Subtitulado de audio: El modelo especialmente ajustado destaca por generar Subtítulos detallados y de gran precisión para cualquier contenido de audio..

💡Capacidades clave
- Arquitectura avanzada: Presenta un diseño Pensador-Hablante basado en MoE, que integra el preentrenamiento de Audio Transformer (AuT) y la síntesis de voz multicódigo innovadora para Salida de baja latencia y excepcionalmente alta fidelidad.
- Razonamiento extenso: La variante especializada del modelo de pensamiento mejora significativamente las capacidades de razonamiento en todas las modalidades compatibles, lo que garantiza una comprensión más profunda de la información compleja.
- Personalización: Ofrece sólidas opciones de personalización, lo que permite a los usuarios ajustar con precisión el comportamiento, el tono y el estilo de interacción del modelo mediante indicaciones intuitivas del sistema.
- Generador de subtítulos de audio de código abierto: El finamente ajustado Qwen3-Omni-30B-A3B-Subtítulos Esta variante proporciona descripciones de audio muy detalladas y con baja probabilidad de provocar alucinaciones, lo que facilita el acceso a subtítulos avanzados.
- Interacción en tiempo real: Diseñado para facilitar la alternancia natural de turnos en las conversaciones, admitiendo respuestas inmediatas de texto o voz para una experiencia de usuario fluida y atractiva.
🚀Casos de uso diversos
- Desarrollo de chatbots multilingües avanzados capaces de comprender tanto entradas de audio como visuales.
- Servicios de transcripción y traducción en tiempo real en multitud de idiomas.
- Análisis exhaustivo del contenido de audio y vídeo, incluyendo la generación automática de resúmenes y subtítulos detallados.
- Creación de sofisticados sistemas multimodales de razonamiento y respuesta a preguntas.
- Diseño de asistentes de voz intuitivos con comprensión del habla natural y un rico entendimiento multimodal.
- Permite la generación de contenido multimedia interactivo y experiencias de navegación fluidas.
💻API e integración
Precios de la API:
- Aporte: $4.0005
- Producción: $3.213
Integración de API:
Qwen3-Omni Captioner es fácilmente accesible a través de la API de IA/ML. Para obtener documentación completa, guías de integración detalladas y referencias adicionales de la API, visite la Documentación oficial disponible aquí..
Ejemplo de código:
🆚Qwen3-Omni frente a los principales modelos
- vs Gemini 2.5 Pro: Qwen3-Omni iguala o supera el rendimiento de Géminis en los puntos de referencia de audio y video y ofrece superioridad accesibilidad de código abierto. Proporciona un rendimiento ASR comparable con significativamente menor latencia en la generación de voz en tiempo real.
- vs Seed-ASR: Qwen3-Omni lo logra Tasas de error de palabras superiores o altamente comparables al tiempo que amplía sus capacidades a dominios multimodales más amplios, mucho más allá del simple procesamiento de audio.
- vs GPT-4o: Qwen3-Omni Destaca especialmente en tareas de audio y vídeo multimodales., todo ello manteniendo una sólida competencia en tareas tradicionales basadas en texto. Incluye Salida de audio en streaming con menor latencia, en gran parte debido a su códec de voz nativo multicódigo.
❓Preguntas frecuentes
Qwen3-Omni Captioner es único debido a su naturaleza como un modelo base multilingüe omnimodal de extremo a extremo. Admite diversas entradas como texto, imágenes, audio y vídeoy proporciona Salidas de texto y voz en tiempo realSu innovadora arquitectura Thinker-Talker y su diseño MoE garantizan un rendimiento excepcional y una latencia ultrabaja en todas las modalidades.
El modelo logra esto a través de su componente "Talker", que utiliza un predictor de múltiples tokens (MTP) para predecir de forma autorregresiva secuencias de múltiples libros de códigos. Estos libros de códigos residuales se sintetizan incrementalmente en formas de onda mediante el renderizador Code2Wav, lo que permite Transmisión de audio fluida, fotograma a fotograma, con un retardo mínimo..
Qwen3-Omni demuestra Resultados de vanguardia en 22 de los 36 parámetros de referencia de audio y audiovisuales.A menudo supera o iguala a modelos de código cerrado robustos como Gemini 2.5 Pro, Seed-ASR y GPT-4o, destacando particularmente en tareas multimodales, precisión ASR y ofreciendo menor latencia de transmisión.
Sí, Qwen3-Omni ofrece amplias opciones de personalización. Su comportamiento, incluyendo el tono y el estilo de interacción, es Totalmente configurable mediante indicaciones del sistema.Esto permite a los usuarios adaptar las respuestas del modelo a las necesidades específicas de la aplicación y a las preferencias del usuario.
Qwen3-Omni Captioner es muy versátil, ideal para aplicaciones como Chatbots multilingües con comprensión multimodal, transcripción y traducción en tiempo real, análisis detallado de contenido de audio y vídeo, respuesta avanzada a preguntas multimodales, asistentes de voz natural.y la generación de contenido multimedia interactivo.
Campo de juegos de IA



Acceso