256K

Dans

Dehors

Chat

désactiver

Qwen3-Next-80B-A3B Réflexion

Il prend en charge la prédiction multi-jetons et les grandes fenêtres de contexte (jusqu'à 1 million de jetons), permettant un raisonnement efficace en temps réel et des applications interactives.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'alibaba/qwen3-next-80b-a3b-thinking',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="alibaba/qwen3-next-80b-a3b-thinking",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

Qwen3-Next-80B-A3B Réflexion

Détails du produit

✨ Découvrez Qwen3-Next-80B-A3B Thinking : votre IA de raisonnement avancé

Aperçu

Le Qwen3-Next-80B-A3B Réflexion Ce modèle se positionne comme une IA conversationnelle de premier plan axée sur le raisonnement, conçue spécifiquement pour la résolution de problèmes complexes à plusieurs étapes et les tâches de raisonnement complexes. Il génère nativement des traces de pensée structurées, ce qui le rend exceptionnellement performant dans les domaines exigeant un raisonnement analytique approfondi, tels que les démonstrations mathématiques complexes, la synthèse de code robuste, la déduction logique et la planification sophistiquée d'agents.

💡 Spécifications techniques

Qwen3-Next-80B-A3B Thinking est un modèle de langage avancé qui se vante de 80 milliards de paramètresUne innovation clé réside dans son architecture épurée de type « Mixture of Experts » (MoE), qui garantit uniquement 3 milliards de paramètres sont activement utilisés par jetonCette conception permet une efficacité remarquable.

⚙️ Architecture: 48 couches avec une dimension cachée de 2048, utilisant une conception hybride avec des mécanismes de contrôle et une normalisation avancée (RMSNorm).
📖 Fenêtre contextuelle : Soutient une vaste 262 000 jetons, extensible jusqu'à 1 million de jetons avec des méthodes de mise à l'échelle spécialisées pour une meilleure compréhension du contexte à long terme.
⚡ Efficacité: Entraîné avec des stratégies hybrides économes en ressources, il offre des performances élevées en matière de raisonnement complexe, de mathématiques, de codage et de résolution de problèmes à plusieurs étapes, tout en maintenant de faibles coûts d'inférence et un débit élevé.

📈 Indicateurs de performance

MMLU (Connaissances générales)

78,5%

Évaluation humaine (génération de code)

82,1%

GSM8K (Mathématiques)

91,2%

Banc MT (Instructions ci-dessous)

84,3%

💰 Tarification de l'API

Saisir:

0,1575 $

Sortir:

1,6 $

🚀 Fonctionnalités clés

🧠 Optimisation du mode de pensée : Spécialement conçu pour la résolution de problèmes complexes et la construction de raisonnements logiques, il produit des traces de sortie plus longues et plus détaillées pour une transparence accrue.
✅ Activation clairsemée : N'active que 3 milliards de paramètres sur 80 milliards par jeton, permettant une inférence rapide et une réduction significative des coûts.
⚡ Prédiction multi-jetons : Accélère le processus de décodage en prédisant simultanément plusieurs jetons, ce qui augmente la vitesse de sortie.
🔗 Raisonnement stable et de longue durée : Conçu pour une stabilité sans faille à travers des chaînes de raisonnement étendues et des instructions complexes.
🤖 Intégration des agents : Prend entièrement en charge les appels de fonctions et l'intégration transparente dans les frameworks d'agents exigeant des solutions analytiques étape par étape.
🌐 Multilingue et multimodal : Offre une solide compréhension multilingue et prend en charge diverses tâches de raisonnement à travers différentes langues et modalités à l'échelle internationale.

🎯 Cas d'utilisation

🔬 Recherche scientifique : Idéal pour la formulation d'hypothèses approfondies et l'analyse de données complexes.
💻 Ingénierie et mathématiques : Excellentes compétences en résolution de problèmes, en démonstrations et en synthèse/débogage de code sophistiqué.
⚖️ Analyse juridique : Permet une analyse juridique détaillée et une construction d'arguments structurés.
📊 Finances et affaires : Aide à la modélisation des risques financiers et à la planification stratégique des entreprises grâce à des étapes de décision transparentes.
⚕️ Assistance au diagnostic médical : Fournit une transparence du raisonnement et des explications détaillées pour l'aide au diagnostic.
📄 Analyse documentaire à long terme : Idéal pour les flux de travail d'analyse et de recherche de documents nécessitant un contexte approfondi.

Exemple codé

Vous trouverez ci-dessous une représentation de l'interaction avec le modèle de pensée Qwen3-Next-80B-A3B via une API (par exemple, la complétion de conversation compatible avec OpenAI). Les détails d'implémentation réels peuvent varier selon votre environnement.

↔️ Comparaison avec d'autres modèles leaders

Contre. Qwen3-32B

Qwen3-Next-80B-A3B s'active uniquement 3 milliards de paramètres par jeton, contrairement à l'activation complète de Qwen3-32B. Cela rend Qwen3-Next environ 10 fois plus efficace en termes de coûts d'entraînement et d'inférence. De plus, il offre plus de Vitesse de sortie 10 fois plus rapide dans des scénarios à contexte long (au-delà de 32 000 jetons) tout en atteignant une précision supérieure sur le raisonnement et les tâches complexes.

Contre. Qwen3-235B

Malgré un nombre de paramètres actifs nettement inférieur, le Qwen3-Next-80B-A3B se rapproche remarquablement des performances du Qwen3-235B, beaucoup plus volumineux avec ses 235 milliards de paramètres, notamment en matière de suivi d'instructions et de raisonnement sur contexte long. Il offre un excellent compromis entre efficacité de calcul et qualité élevée du modèlece qui le rend parfaitement adapté aux environnements de production.

Contre. Google Gemini-2.5-Flash-Thinking

La variante Qwen3-Next-80B-A3B Thinking surpasse manifestement Google Gemini-2.5-Flash-Thinking dans des domaines critiques tels que raisonnement par chaîne de pensée et tâches d'instruction à plusieurs toursCes performances supérieures s'accompagnent de coûts opérationnels nettement inférieurs, grâce à son activation parcimonieuse et à ses capacités de prédiction multi-jetons.

Contre Llama 3.1-70B

Qwen3-Next-80B-A3B offre des améliorations compréhension du contexte à long terme et une stabilité de raisonnement supérieure à des fenêtres de contexte beaucoup plus larges (évolutives jusqu'à 1 million de jetons), surpassant largement les limitations natives de Llama 3.1-70B en termes de fenêtres. Son architecture MoE épurée lui confère également une efficacité supérieure à grande échelle.

❓ Foire aux questions (FAQ)

Q1 : Qu'est-ce qui rend Qwen3-Next-80B-A3B Thinking unique pour les tâches de raisonnement ?

A1 : Il est spécifiquement conçu avec un « mode de réflexion » optimisé pour la résolution de problèmes complexes à plusieurs étapes et le raisonnement en chaîne, générant par défaut des traces de raisonnement structurées. Son architecture MoE épurée garantit également l’efficacité sans compromettre les capacités d’analyse approfondie.

Q2 : En quoi l'architecture MoE clairsemée est-elle bénéfique à ce modèle ?

A2 : L’architecture à faible densité de paramètres (MoE) signifie que seulement 3 milliards de ses 80 milliards de paramètres sont actifs par jeton. Cela réduit considérablement les coûts d’inférence, accélère le traitement et maintient un débit élevé, notamment pour les tâches de raisonnement complexes.

Q3 : Quelle est la fenêtre de contexte maximale prise en charge par Qwen3-Next-80B-A3B Thinking ?

A3 : Le modèle prend en charge nativement une fenêtre de contexte étendue de 262 000 jetons et, grâce à des méthodes de mise à l'échelle spécialisées, il peut être étendu jusqu'à un impressionnant million de jetons, permettant une compréhension supérieure du contexte long.

Q4 : La pensée Qwen3-Next-80B-A3B peut-elle être intégrée dans les systèmes d'agents ?

A4 : Oui, il prend entièrement en charge l'appel de fonctions et est conçu pour une intégration transparente dans les frameworks d'agents qui nécessitent des solutions analytiques précises et étape par étape.

Q5 : Comment ses performances se comparent-elles à celles d'autres grands modèles de langage comme Llama 3.1-70B ?

A5 : Qwen3-Next-80B-A3B Thinking offre une meilleure compréhension du contexte à long terme et une stabilité de raisonnement accrue sur des fenêtres de contexte nettement plus larges (jusqu’à 1 million de jetons) par rapport à Llama 3.1-70B. Son architecture MoE clairsemée offre également une efficacité supérieure à grande échelle.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts