Dans

Dehors

Chat

désactiver

Qwen3-Omni Captioner

Il prend en charge les entrées audio et renvoie des légendes textuelles enrichies en temps réel ou par lots, sans nécessiter d'invites de saisie.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        import OpenAI from 'openai';

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const response = await api.chat.completions.create({
    model: 'alibaba/qwen3-omni-30b-a3b-captioner',
    messages: [
      {
        role: 'user',
        content: [
          { 
            type: 'input_audio', 
            input_audio: { 
              data: 'https://cdn.ai.cc/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3'
            }
          }
        ]
      }
    ],
  });

  console.log(response.choices[0].message.content);
};

main();

                                        from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="alibaba/qwen3-omni-30b-a3b-captioner",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": "https://cdn.aimlapi.com/eagle/files/elephant/cJUTeeQmpodIV1Q3MWDAL_vibevoice-output-7b98283fd3974f48ba90e91d2ee1f971.mp3"
                    }
                }
            ]
        },
    ],
)

print(response.choices[0].message.content)

Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

Qwen3-Omni Captioner

Détails du produit

Dévoilement de Qwen3-Omni Captioner : une plateforme d’IA multilingue et omnimodale ultra-performante

Découvrir Qwen3-Omni Captioner, le modèle de base multilingue omnimodal de bout en bout natif et de pointe d'Alibaba Cloud. Conçu pour redéfinir l'interaction avec l'IA, il traite de manière transparente des entrées diverses, notamment texte, images, audio et vidéoCe modèle novateur assure des réponses en temps réel, tant textuelles que vocales, tout en maintenant des performances exceptionnelles et constantes sur tous les supports. Qwen3-Omni s'impose comme une solution d'IA multimodale de pointe, offrant des capacités inégalées.

⚙️Analyse technique approfondie

Architecture du penseur-parleur : Cette conception unique sépare intelligemment la génération de texte (le Penseur) à partir de la synthèse vocale en temps réel (le ParleurCela permet un traitement hautement spécialisé et efficace pour les deux tâches distinctes.
Diffusion en continu à très faible latence : Le composant Talker prédit de manière autorégressive les séquences multicodebook. Son module Multi-Token Predictor (MTP) génère des codebooks résiduels pour la trame audio courante, qui sont ensuite synthétisés progressivement en une forme d'onde par le moteur de rendu Code2Wav. Ce processus sophistiqué garantit sortie audio fluide et en temps réel.
Encodeur audio AuT : L'encodeur AuT, qui alimente les capacités audio du modèle, est méticuleusement entraîné sur un vaste ensemble de données. 20 millions d'heures de données audioCette formation approfondie permet une extraction de caractéristiques audio exceptionnellement performante et généralisable.
Architecture du ministère de l'Éducation : Les sous-systèmes Penseur et Parleur sont tous deux construits sur Mélange d'experts (MoE) Cette architecture facilite une forte concurrence et une inférence rapide en n'activant qu'un sous-ensemble de paramètres par jeton, ce qui permet une efficacité supérieure.

📊Points saillants de la performance

Qwen3-Omni s'impose comme leader, réalisant des résultats de pointe sur 22 des 36 tests de performance audio et audiovisuelleIl surpasse notamment les modèles propriétaires performants, tels que Gemini 2.5 Pro et GPT-4o-Transcribe, sur divers indicateurs de performance.

Compréhension de texte : Démontre des performances compétitives par rapport aux meilleurs modèles dans les tâches MMLU, GPQA, de raisonnement et de codage complexe.
Reconnaissance audio (ASR) : Réalise un Taux d'erreur de mots (WER) équivalent ou supérieur à celui de Seed-ASR et de GPT-4o-Transcribe dans de nombreux ensembles de données.
Raisonnement multimodal : Présente des performances solides dans les tests de réponse aux questions audiovisuelles complexes et les tests de description vidéo complète.
Génération de la parole : Fournit une qualité élevée synthèse vocale multilingue, tout en conservant une identité de locuteur cohérente à travers 10 langues différentes.
Latence de diffusion en continu : Il présente des caractéristiques impressionnantes latence du premier paquet ultra-faible d'environ 211 ms, garantissant des réponses vocales quasi instantanées.
Sous-titrage audio : Le modèle spécialement optimisé excelle dans la génération Des sous-titres détaillés et très précis pour tout type de contenu audio.

Références de performance : Comme présenté dans la source originale, cette image met en évidence l’avantage concurrentiel de Qwen3-Omni.

💡Capacités clés

Architecture avancée : Doté d'une conception Thinker–Talker basée sur MoE, intégrant un pré-entraînement Audio Transformer (AuT) et une synthèse vocale multicodebook innovante pour sortie à faible latence et d'une fidélité exceptionnellement élevée.
Raisonnement extensif : La variante spécialisée du modèle de pensée améliore considérablement les capacités de raisonnement dans toutes les modalités prises en charge, assurant ainsi une compréhension plus approfondie des entrées complexes.
Personnalisation : Offre des options de personnalisation robustes, permettant aux utilisateurs d'affiner le comportement, le ton et le style d'interaction du modèle via des invites système intuitives.
Sous-titreur audio open source : Le réglage précis Qwen3-Omni-30B-A3B-Légendaire Cette variante propose des descriptions audio très détaillées et à faible risque d'hallucinations, rendant ainsi le sous-titrage avancé accessible.
Interaction en temps réel : Conçu pour des échanges naturels lors des conversations, prenant en charge les réponses textuelles ou vocales immédiates pour une expérience utilisateur fluide et engageante.

🚀Divers cas d'utilisation

Développement de chatbots multilingues avancés capables de comprendre les entrées audio et visuelles.
Services de transcription et de traduction en temps réel dans une multitude de langues.
Analyse approfondie du contenu audio et vidéo, incluant le résumé automatisé et le sous-titrage détaillé.
Création de systèmes sophistiqués de questionnement et de raisonnement multimodaux.
Conception d'assistants vocaux intuitifs dotés d'une compréhension naturelle du langage et d'une riche compréhension multimodale.
Permettre la génération de contenu multimédia interactif et des expériences de navigation fluides.

💻API et intégration

Tarification de l'API :

Saisir: 4,0005 $
Sortir: 3,213 $

Intégration API :

Qwen3-Omni Captioner est facilement accessible via l'API IA/ML. Pour une documentation complète, des guides d'intégration détaillés et d'autres références API, veuillez consulter le site web suivant : Documentation officielle disponible ici.

Exemple de code :

🆚Qwen3-Omni contre les modèles leaders

vs Gemini 2.5 Pro : Qwen3-Omni égale ou surpasse les performances de Gemini sur les benchmarks audio-vidéo et offre des performances supérieures accessibilité open sourceIl offre des performances ASR comparables, mais avec des améliorations significatives. latence plus faible dans la génération de parole en continu.
vs Seed-ASR : Qwen3-Omni réalise Taux d'erreurs lexicales supérieurs ou très comparables tout en étendant ses capacités à des domaines multimodaux plus vastes, bien au-delà du simple traitement audio.
par rapport à GPT-4o : Qwen3-Omni excelle particulièrement dans les tâches audio et vidéo multimodales, tout en conservant une solide maîtrise des tâches textuelles traditionnelles. Il comprend sortie audio en streaming à faible latence, notamment grâce à son codec vocal natif multicodebook.

❓Foire aux questions

1. Qu'est-ce qui fait de Qwen3-Omni Captioner un modèle d'IA unique ?

Qwen3-Omni Captioner est unique de par sa nature de modèle de base multilingue omnimodal de bout en bout. Il prend en charge diverses entrées comme texte, images, audio et vidéoet fournit diffusion en continu de texte et de parole en temps réelSon architecture innovante Thinker-Talker et sa conception MoE garantissent des performances exceptionnelles et une latence ultra-faible pour toutes les modalités.

2. Comment Qwen3-Omni parvient-il à une sortie vocale en temps réel à latence ultra-faible ?

Le modèle y parvient grâce à son composant « Talker », qui utilise un prédicteur multi-jetons (MTP) pour prédire de manière autorégressive des séquences multi-codebooks. Ces codebooks résiduels sont ensuite synthétisés de manière incrémentale en formes d'onde par le moteur de rendu Code2Wav, permettant ainsi… Diffusion audio fluide, image par image, avec un délai minimal.

3. Comment les performances de Qwen3-Omni se comparent-elles à celles des autres modèles d'IA de pointe ?

Qwen3-Omni démontre des résultats de pointe sur 22 des 36 tests de performance audio et audiovisuelleIl surpasse souvent, voire égale, des modèles propriétaires performants tels que Gemini 2.5 Pro, Seed-ASR et GPT-4o, excellant notamment dans les tâches multimodales, la précision de la reconnaissance automatique de la parole et offrant latence de streaming réduite.

4. Puis-je personnaliser les réponses et le style d'interaction de Qwen3-Omni ?

Oui, Qwen3-Omni offre de nombreuses options de personnalisation. Son comportement, notamment le ton et le style d'interaction, est… entièrement configurable via les invites systèmeCela permet aux utilisateurs d'adapter les réponses du modèle aux besoins spécifiques de l'application et à leurs préférences.

5. Quelles sont les principales applications et les cas d'utilisation de Qwen3-Omni Captioner ?

Qwen3-Omni Captioner est extrêmement polyvalent, idéal pour des applications telles que Chatbots multilingues avec compréhension multimodale, transcription et traduction en temps réel, analyse détaillée du contenu audio et vidéo, réponse avancée aux questions multimodales, assistants vocaux naturelset la génération de contenu multimédia interactif.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts