



import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const response = await api.chat.completions.create({
model: 'alibaba/qwen3-omni-30b-a3b-captioner',
messages: [
{
role: 'user',
content: [
{
type: 'input_audio',
input_audio: {
data: 'https://cdn.ai.cc/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3'
}
}
]
}
],
});
console.log(response.choices[0].message.content);
};
main();
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-omni-30b-a3b-captioner",
messages=[
{
"role": "user",
"content": [
{
"type": "input_audio",
"input_audio": {
"data": "https://cdn.aimlapi.com/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
}
}
]
},
],
)
print(response.choices[0].message.content)

Detalhes do produto
Apresentando o Qwen3-Omni Captioner: uma poderosa solução de IA multilíngue e omnimodal.
Descobrir Legendas Qwen3-Omni, o modelo de base omnimodal multilíngue de última geração e nativamente integrado da Alibaba Cloud. Projetado para redefinir a interação com IA, ele processa perfeitamente diversas entradas, incluindo texto, imagens, áudio e vídeoEste modelo inovador oferece respostas em tempo real, tanto em texto natural quanto em fala, mantendo um desempenho excepcional em todas as modalidades, sem degradação. O Qwen3-Omni se destaca como uma solução líder em IA multimodal, oferecendo recursos incomparáveis.
⚙️Análise técnica detalhada
- Arquitetura Pensador-Falador: Este design exclusivo separa de forma inteligente a geração de texto (o Pensador) da síntese de fala em tempo real (o FaladorIsso possibilita um processamento altamente especializado e eficiente para ambas as tarefas distintas.
- Streaming de latência ultrabaixa: O componente Talker prevê sequências de múltiplos codebooks de forma autorregressiva. Seu módulo Multi-Token Predictor (MTP) gera codebooks residuais para o quadro de áudio atual, que são então sintetizados incrementalmente em uma forma de onda pelo renderizador Code2Wav. Esse processo sofisticado garante Saída de áudio contínua e em tempo real.
- Codificador de áudio AuT: Para alimentar as capacidades de áudio do modelo, o codificador AuT é meticulosamente treinado em um extenso conjunto de dados de 20 milhões de horas de dados de áudioEste extenso treinamento proporciona uma extração de características de áudio excepcionalmente robusta e generalizável.
- Arquitetura do Ministério da Educação: Tanto o subsistema Pensador quanto o subsistema Falante são construídos sobre Mistura de Especialistas (MoE) modelos. Essa arquitetura facilita alta concorrência e inferência rápida, ativando apenas um subconjunto de parâmetros por token, resultando em eficiência superior.
📊Destaques da performance
A Qwen3-Omni se estabelece como líder, alcançando Resultados de última geração em 22 dos 36 benchmarks de áudio e audiovisual.Ele supera notavelmente modelos robustos de código fechado, incluindo o Gemini 2.5 Pro e o GPT-4o-Transcribe, em diversas métricas de desempenho.
- Compreensão de texto: Demonstra desempenho competitivo em relação aos melhores modelos em tarefas de MMLU, GPQA, raciocínio e código complexo.
- Reconhecimento de áudio (ASR): Consegue um Taxa de erro de palavras (WER) igual ou superior à do Seed-ASR e do GPT-4o-Transcribe. em diversos conjuntos de dados.
- Raciocínio multimodal: Apresenta desempenho robusto em testes desafiadores de perguntas e respostas audiovisuais e em benchmarks abrangentes de descrição de vídeos.
- Geração de fala: Oferece alta qualidade síntese de fala multilíngue, mantendo uma identidade de falante consistente em 10 idiomas diferentes.
- Latência de streaming: Apresenta um impressionante Latência ultrabaixa do primeiro pacote de aproximadamente 211 ms, garantindo respostas de fala quase instantâneas.
- Legendas de áudio: O modelo, especialmente ajustado, destaca-se na geração de Legendas detalhadas e altamente precisas para qualquer conteúdo de áudio..

💡Principais capacidades
- Arquitetura Avançada: Apresenta um design Thinker-Talker baseado em MoE, integrando pré-treinamento de Audio Transformer (AuT) e síntese de fala inovadora com múltiplos codebooks para Saída de baixa latência e fidelidade excepcionalmente alta.
- Raciocínio extensivo: A variante especializada do modelo de Pensamento aprimora significativamente as habilidades de raciocínio em todas as modalidades suportadas, garantindo uma compreensão mais profunda de informações complexas.
- Personalização: Oferece opções robustas de personalização, permitindo que os usuários ajustem o comportamento, o tom e o estilo de interação do modelo por meio de instruções intuitivas do sistema.
- Legendas de áudio de código aberto: O ajustado com precisão Qwen3-Omni-30B-A3B-Legenda A variante oferece descrições de áudio altamente detalhadas e com baixo teor de alucinações, tornando a legendagem avançada acessível.
- Interação em tempo real: Projetado para facilitar a alternância natural de turnos em conversas, oferecendo suporte a respostas imediatas por texto ou voz para uma experiência de usuário fluida e envolvente.
🚀Diversos casos de uso
- Desenvolvimento de chatbots multilíngues avançados capazes de compreender entradas de áudio e vídeo.
- Serviços de transcrição e tradução em tempo real em diversos idiomas.
- Análise aprofundada de conteúdo de áudio e vídeo, incluindo sumarização automatizada e legendagem detalhada.
- Criação de sistemas sofisticados de raciocínio e resposta a perguntas multimodais.
- Design de assistentes de voz intuitivos com compreensão de fala natural e ampla capacidade de processamento multimodal.
- Possibilitando a geração de conteúdo multimídia interativo e experiências de navegação perfeitas.
💻API e integração
Preços da API:
- Entrada: $ 4,0005
- Saída: $ 3,213
Integração de API:
O Qwen3-Omni Captioner é facilmente acessível através da API de IA/ML. Para obter documentação completa, guias de integração detalhados e outras referências da API, visite o site. A documentação oficial está disponível aqui..
Exemplo de código:
🆚Qwen3-Omni vs. Modelos líderes
- vs Gemini 2.5 Pro: Qwen3-Omni iguala ou supera o desempenho de Gêmeos em benchmarks de áudio e vídeo e oferece desempenho superior acessibilidade de código abertoOferece desempenho ASR comparável com significativamente menor latência na geração de fala em streaming.
- vs Seed-ASR: Qwen3-Omni alcança Taxas de erro de palavras superiores ou altamente comparáveis ao mesmo tempo que amplia suas capacidades para domínios multimodais mais abrangentes, muito além do simples processamento de áudio.
- vs GPT-4o: Qwen3-Omni Destaca-se particularmente em tarefas multimodais de áudio e vídeo., mantendo ao mesmo tempo uma sólida proficiência em tarefas tradicionais baseadas em texto. Ele apresenta saída de áudio de streaming com menor latência, em grande parte devido ao seu codec de voz nativo com suporte a múltiplos dicionários de códigos.
❓Perguntas frequentes
O Qwen3-Omni Captioner é único devido à sua natureza como um modelo de base multimodal multilíngue de ponta a ponta. Ele suporta diversas entradas, como texto, imagens, áudio e vídeoe fornece saídas de texto e voz em tempo realSua arquitetura inovadora Thinker-Talker e design MoE garantem desempenho excepcional e latência ultrabaixa em todas as modalidades.
O modelo alcança isso por meio de seu componente "Talker", que usa um Preditor de Múltiplos Tokens (MTP) para prever de forma autorregressiva sequências de múltiplos livros de códigos. Esses livros de códigos residuais são então sintetizados incrementalmente em formas de onda pelo renderizador Code2Wav, permitindo Transmissão de áudio contínua, quadro a quadro, com atraso mínimo..
Qwen3-Omni demonstra Resultados de última geração em 22 dos 36 benchmarks de áudio e audiovisual.Ele frequentemente supera ou iguala modelos proprietários robustos como Gemini 2.5 Pro, Seed-ASR e GPT-4o, destacando-se particularmente em tarefas multimodais, precisão de reconhecimento automático de fala (ASR) e oferecendo... menor latência de streaming.
Sim, o Qwen3-Omni oferece amplas opções de personalização. Seu comportamento, incluindo tom e estilo de interação, é Totalmente configurável através de comandos do sistema.Isso permite que os usuários adaptem as respostas do modelo às necessidades específicas da aplicação e às preferências do usuário.
O Qwen3-Omni Captioner é altamente versátil, ideal para aplicações como Chatbots multilíngues com compreensão multimodal, transcrição e tradução em tempo real, análise detalhada de conteúdo de áudio e vídeo, respostas a perguntas multimodais avançadas e assistentes de voz naturais.e geração de conteúdo multimídia interativo.
Playground de IA



Conecte-se