



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'alibaba/qwen3-next-80b-a3b-thinking',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-next-80b-a3b-thinking",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

产品详情
✨ 隆重推出 Qwen3-Next-80B-A3B 思维:您的高级推理人工智能
概述
这 Qwen3-Next-80B-A3B 思考 该模型是一款卓越的推理型聊天人工智能,专为解决复杂的多步骤问题和处理高级思维链任务而设计。它能够原生生成结构化的“思考”轨迹,使其在需要深度分析推理的领域表现异常出色,例如复杂的数学证明、稳健的代码合成、逻辑演绎和复杂的智能体规划。
💡 技术规格
Qwen3-Next-80B-A3B 思维是一种先进的语言模型,其特点是 800亿个参数一项关键创新是其稀疏的混合专家(MoE)架构,该架构确保只有 每个Tokens有 30 亿个参数处于活跃状态。这种设计能够显著提高效率。
- ⚙️ 建筑学: 48 层,2048 个隐藏维度,采用混合设计,具有门控机制和高级归一化(RMSNorm)。
- 📖 上下文窗口: 支持广泛的 262K Tokens可扩展至 100万个Tokens 采用专门的扩展方法,以实现对长期上下文的更深入理解。
- ⚡ 效率: 它采用资源高效的混合策略进行训练,在复杂推理、数学、编码和多步骤问题解决方面表现出色,同时保持较低的推理成本和较高的吞吐量。
📈 性能基准测试
MMLU(常识)
78.5%
HumanEval(代码生成)
82.1%
GSM8K(数学)
91.2%
MT-Bench(操作说明如下)
84.3%
💰 API 定价
输入:
0.1575美元
输出:
1.6美元
🚀 主要特点
- 🧠 思维模式优化: 专为思维导图和复杂问题解决而设计,可生成更长、更详细的输出轨迹,从而提高透明度。
- ✅ 稀疏激活: 每个令牌仅激活 800 亿个参数中的 30 亿个,从而实现快速推理和显著的成本效益。
- ⚡ 多词预测: 通过同时预测多个标记来加速解码过程,从而提高输出速度。
- 🔗 稳定的长篇推理: 专为在长时间推理链和复杂指令中保持稳定而设计。
- 🤖 代理集成: 完全支持函数调用,并可无缝集成到需要逐步分析解决方案的代理框架中。
- 🌐 多语言和多模态: 具备强大的多语言理解能力,并支持跨多种语言和模式的国际多样化推理任务。
🎯 使用案例
- 🔬 科学研究: 非常适合进行深度假设生成和复杂数据分析。
- 💻 工程与数学: 擅长解决问题、证明以及复杂的代码合成/调试。
- ⚖️ 法律分析: 支持详细的法律案例分析和结构化的论证构建。
- 📊 金融与商业: 通过透明的决策步骤,辅助进行财务风险建模和战略业务规划。
- ⚕️ 医疗诊断协助: 提供清晰的推理过程和详细的解释,以支持诊断。
- 📄 长语境文档分析: 非常适合需要深度上下文信息的文档分析和检索增强型工作流程。
代码示例
下图展示了如何通过 API(例如,兼容 OpenAI 的聊天自动完成功能)与 Qwen3-Next-80B-A3B 思维模型进行交互。实际实现细节可能因环境而异。
↔️ 与其他领先型号的比较
对比 Qwen3-32B
Qwen3-Next-80B-A3B 仅激活 每个Tokens 30 亿个参数这与 Qwen3-32B 的完全激活形成对比。这使得 Qwen3-Next 大约 效率提高 10 倍 无论在训练成本还是推理成本方面,它都能提供超过 输出速度提高10倍 在长上下文场景(超过 32K 个令牌)中,同时在推理和复杂任务中取得卓越的准确率。
对比 Qwen3-235B
尽管Qwen3-Next-80B-A3B的有效参数数量显著少于Qwen3-235B(后者拥有2350亿个参数),但其性能却非常接近后者,尤其是在指令跟踪和长上下文推理方面。它在性能和逻辑推理之间取得了极佳的平衡。 计算效率和高模型质量因此,它非常适合生产环境。
对比 Google Gemini-2.5-Flash-Thinking
Qwen3-Next-80B-A3B Thinking 版本在关键领域明显优于 Google Gemini-2.5-Flash-Thinking,例如 逻辑推理 和 多轮指令任务凭借其稀疏激活和多令牌预测功能,该技术性能卓越,运营成本却大幅降低。
与 Llama 3.1-70B 的比赛
Qwen3-Next-80B-A3B 提供增强功能 长远背景理解 在更大的上下文窗口下具有更优异的推理稳定性(可扩展至 100万个Tokens显著超越了 Llama 3.1-70B 的原生窗口限制。其稀疏的 MoE 架构也使其在规模化应用中拥有卓越的效率。
❓ 常见问题解答 (FAQ)
Q1:Qwen3-Next-80B-A3B Thinking 在推理任务方面有何独特之处?
A1:它专为复杂的多步骤问题解决和思维链优化而设计,采用“思考模式”,默认生成结构化推理轨迹。其稀疏的MoE架构也确保了效率,同时又不影响深度分析能力。
Q2:稀疏的 MoE 架构如何使该模型受益?
A2:稀疏混合专家(MoE)架构意味着每个词元只有 30 亿个参数处于激活状态(占其 800 亿个参数的 30 亿个)。这显著降低了推理成本,提高了处理速度,并保持了高吞吐量,尤其是在处理复杂的推理任务时。
Q3:Qwen3-Next-80B-A3B Thinking 支持的最大上下文窗口是多少?
A3:该模型原生支持 262K 个标记的广泛上下文窗口,并且通过专门的扩展方法,可以扩展到惊人的 100 万个标记,从而实现卓越的长上下文理解。
Q4:Qwen3-Next-80B-A3B 思维能否集成到代理系统中?
A4:是的,它完全支持函数调用,并且设计用于无缝集成到需要精确的、逐步分析解决方案的代理框架中。
Q5:它的性能与其他大型语言模型(如 Llama 3.1-70B)相比如何?
A5:与 Llama 3.1-70B 相比,Qwen3-Next-80B-A3B Thinking 在更大的上下文窗口(高达 100 万个 token)内提供更好的长期上下文理解和推理稳定性。其稀疏的 MoE 架构也提供了更高效的规模化性能。



登录