



import OpenAI from 'openai';
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const response = await api.chat.completions.create({
model: 'alibaba/qwen3-omni-30b-a3b-captioner',
messages: [
{
role: 'user',
content: [
{
type: 'input_audio',
input_audio: {
data: 'https://cdn.ai.cc/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3'
}
}
]
}
],
});
console.log(response.choices[0].message.content);
};
main();
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-omni-30b-a3b-captioner",
messages=[
{
"role": "user",
"content": [
{
"type": "input_audio",
"input_audio": {
"data": "https://cdn.aimlapi.com/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
}
}
]
},
],
)
print(response.choices[0].message.content)

Détails du produit
Dévoilement de Qwen3-Omni Captioner : une plateforme d’IA multilingue et omnimodale ultra-performante
Découvrir Qwen3-Omni Captioner, le modèle de base multilingue omnimodal de bout en bout natif et de pointe d'Alibaba Cloud. Conçu pour redéfinir l'interaction avec l'IA, il traite de manière transparente des entrées diverses, notamment texte, images, audio et vidéoCe modèle novateur assure des réponses en temps réel, tant textuelles que vocales, tout en maintenant des performances exceptionnelles et constantes sur tous les supports. Qwen3-Omni s'impose comme une solution d'IA multimodale de pointe, offrant des capacités inégalées.
⚙️Analyse technique approfondie
- Architecture du penseur-parleur : Cette conception unique sépare intelligemment la génération de texte (le Penseur) à partir de la synthèse vocale en temps réel (le ParleurCela permet un traitement hautement spécialisé et efficace pour les deux tâches distinctes.
- Diffusion en continu à très faible latence : Le composant Talker prédit de manière autorégressive les séquences multicodebook. Son module Multi-Token Predictor (MTP) génère des codebooks résiduels pour la trame audio courante, qui sont ensuite synthétisés progressivement en une forme d'onde par le moteur de rendu Code2Wav. Ce processus sophistiqué garantit sortie audio fluide et en temps réel.
- Encodeur audio AuT : L'encodeur AuT, qui alimente les capacités audio du modèle, est méticuleusement entraîné sur un vaste ensemble de données. 20 millions d'heures de données audioCette formation approfondie permet une extraction de caractéristiques audio exceptionnellement performante et généralisable.
- Architecture du ministère de l'Éducation : Les sous-systèmes Penseur et Parleur sont tous deux construits sur Mélange d'experts (MoE) Cette architecture facilite une forte concurrence et une inférence rapide en n'activant qu'un sous-ensemble de paramètres par jeton, ce qui permet une efficacité supérieure.
📊Points saillants de la performance
Qwen3-Omni s'impose comme leader, réalisant des résultats de pointe sur 22 des 36 tests de performance audio et audiovisuelleIl surpasse notamment les modèles propriétaires performants, tels que Gemini 2.5 Pro et GPT-4o-Transcribe, sur divers indicateurs de performance.
- Compréhension de texte : Démontre des performances compétitives par rapport aux meilleurs modèles dans les tâches MMLU, GPQA, de raisonnement et de codage complexe.
- Reconnaissance audio (ASR) : Réalise un Taux d'erreur de mots (WER) équivalent ou supérieur à celui de Seed-ASR et de GPT-4o-Transcribe dans de nombreux ensembles de données.
- Raisonnement multimodal : Présente des performances solides dans les tests de réponse aux questions audiovisuelles complexes et les tests de description vidéo complète.
- Génération de la parole : Fournit une qualité élevée synthèse vocale multilingue, tout en conservant une identité de locuteur cohérente à travers 10 langues différentes.
- Latence de diffusion en continu : Il présente des caractéristiques impressionnantes latence du premier paquet ultra-faible d'environ 211 ms, garantissant des réponses vocales quasi instantanées.
- Sous-titrage audio : Le modèle spécialement optimisé excelle dans la génération Des sous-titres détaillés et très précis pour tout type de contenu audio.

💡Capacités clés
- Architecture avancée : Doté d'une conception Thinker–Talker basée sur MoE, intégrant un pré-entraînement Audio Transformer (AuT) et une synthèse vocale multicodebook innovante pour sortie à faible latence et d'une fidélité exceptionnellement élevée.
- Raisonnement extensif : La variante spécialisée du modèle de pensée améliore considérablement les capacités de raisonnement dans toutes les modalités prises en charge, assurant ainsi une compréhension plus approfondie des entrées complexes.
- Personnalisation : Offre des options de personnalisation robustes, permettant aux utilisateurs d'affiner le comportement, le ton et le style d'interaction du modèle via des invites système intuitives.
- Sous-titreur audio open source : Le réglage précis Qwen3-Omni-30B-A3B-Légendaire Cette variante propose des descriptions audio très détaillées et à faible risque d'hallucinations, rendant ainsi le sous-titrage avancé accessible.
- Interaction en temps réel : Conçu pour des échanges naturels lors des conversations, prenant en charge les réponses textuelles ou vocales immédiates pour une expérience utilisateur fluide et engageante.
🚀Divers cas d'utilisation
- Développement de chatbots multilingues avancés capables de comprendre les entrées audio et visuelles.
- Services de transcription et de traduction en temps réel dans une multitude de langues.
- Analyse approfondie du contenu audio et vidéo, incluant le résumé automatisé et le sous-titrage détaillé.
- Création de systèmes sophistiqués de questionnement et de raisonnement multimodaux.
- Conception d'assistants vocaux intuitifs dotés d'une compréhension naturelle du langage et d'une riche compréhension multimodale.
- Permettre la génération de contenu multimédia interactif et des expériences de navigation fluides.
💻API et intégration
Tarification de l'API :
- Saisir: 4,0005 $
- Sortir: 3,213 $
Intégration API :
Qwen3-Omni Captioner est facilement accessible via l'API IA/ML. Pour une documentation complète, des guides d'intégration détaillés et d'autres références API, veuillez consulter le site web suivant : Documentation officielle disponible ici.
Exemple de code :
🆚Qwen3-Omni contre les modèles leaders
- vs Gemini 2.5 Pro : Qwen3-Omni égale ou surpasse les performances de Gemini sur les benchmarks audio-vidéo et offre des performances supérieures accessibilité open sourceIl offre des performances ASR comparables, mais avec des améliorations significatives. latence plus faible dans la génération de parole en continu.
- vs Seed-ASR : Qwen3-Omni réalise Taux d'erreurs lexicales supérieurs ou très comparables tout en étendant ses capacités à des domaines multimodaux plus vastes, bien au-delà du simple traitement audio.
- par rapport à GPT-4o : Qwen3-Omni excelle particulièrement dans les tâches audio et vidéo multimodales, tout en conservant une solide maîtrise des tâches textuelles traditionnelles. Il comprend sortie audio en streaming à faible latence, notamment grâce à son codec vocal natif multicodebook.
❓Foire aux questions
Qwen3-Omni Captioner est unique de par sa nature de modèle de base multilingue omnimodal de bout en bout. Il prend en charge diverses entrées comme texte, images, audio et vidéoet fournit diffusion en continu de texte et de parole en temps réelSon architecture innovante Thinker-Talker et sa conception MoE garantissent des performances exceptionnelles et une latence ultra-faible pour toutes les modalités.
Le modèle y parvient grâce à son composant « Talker », qui utilise un prédicteur multi-jetons (MTP) pour prédire de manière autorégressive des séquences multi-codebooks. Ces codebooks résiduels sont ensuite synthétisés de manière incrémentale en formes d'onde par le moteur de rendu Code2Wav, permettant ainsi… Diffusion audio fluide, image par image, avec un délai minimal.
Qwen3-Omni démontre des résultats de pointe sur 22 des 36 tests de performance audio et audiovisuelleIl surpasse souvent, voire égale, des modèles propriétaires performants tels que Gemini 2.5 Pro, Seed-ASR et GPT-4o, excellant notamment dans les tâches multimodales, la précision de la reconnaissance automatique de la parole et offrant latence de streaming réduite.
Oui, Qwen3-Omni offre de nombreuses options de personnalisation. Son comportement, notamment le ton et le style d'interaction, est… entièrement configurable via les invites systèmeCela permet aux utilisateurs d'adapter les réponses du modèle aux besoins spécifiques de l'application et à leurs préférences.
Qwen3-Omni Captioner est extrêmement polyvalent, idéal pour des applications telles que Chatbots multilingues avec compréhension multimodale, transcription et traduction en temps réel, analyse détaillée du contenu audio et vidéo, réponse avancée aux questions multimodales, assistants vocaux naturelset la génération de contenu multimédia interactif.
Terrain de jeu de l'IA



Se connecter