



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'alibaba/qwen3-next-80b-a3b-thinking',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-next-80b-a3b-thinking",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalhes do produto
✨ Apresentando Qwen3-Next-80B-A3B Thinking: Sua IA de Raciocínio Avançado
Visão geral
O Qwen3-Próximo-80B-A3B Pensando O modelo se destaca como uma IA de bate-papo focada em raciocínio, projetada especificamente para a resolução de problemas complexos em várias etapas e tarefas avançadas de raciocínio lógico. Ele gera nativamente rastros estruturados de "pensamento", tornando-o excepcionalmente proficiente em domínios que exigem raciocínio analítico profundo, como provas matemáticas complexas, síntese de código robusta, dedução lógica e planejamento de agentes sofisticado.
💡 Especificações Técnicas
Qwen3-Next-80B-A3B Thinking é um modelo de linguagem avançado que possui 80 bilhões de parâmetrosUma inovação fundamental é sua arquitetura esparsa de Mistura de Especialistas (MoE), que garante apenas 3 bilhões de parâmetros são ativamente utilizados por token.Este design proporciona uma eficiência notável.
- ⚙️ Arquitetura: 48 camadas com uma dimensão oculta de 2048, empregando um design híbrido com mecanismos de gating e normalização avançada (RMSNorm).
- 📖 Janela de contexto: Suporta uma ampla gama de opções. 262 mil tokens, extensível até 1 milhão de tokens Com métodos de escalonamento especializados para uma compreensão superior de contextos de longo prazo.
- ⚡ Eficiência: Treinado com estratégias híbridas que utilizam recursos de forma eficiente, ele oferece alto desempenho em raciocínio complexo, matemática, programação e resolução de problemas em várias etapas, mantendo baixos custos de inferência e alta produtividade.
📈 Indicadores de desempenho
MMLU (Conhecimentos Gerais)
78,5%
HumanEval (Geração de Código)
82,1%
GSM8K (Matemática)
91,2%
MT-Bench (Instruções a seguir)
84,3%
💰 Preços da API
Entrada:
$ 0,1575
Saída:
$ 1,6
🚀 Principais Características
- 🧠 Otimização do Modo de Pensamento: Projetado especificamente para raciocínio lógico e resolução de problemas complexos, produzindo registros de saída mais longos e detalhados para maior transparência.
- ✅ Ativação esparsa: Ativa apenas 3 bilhões dos 80 bilhões de parâmetros por token, permitindo inferência rápida e significativa redução de custos.
- ⚡ Previsão com múltiplos tokens: Acelera o processo de decodificação prevendo vários tokens simultaneamente, aumentando a velocidade de saída.
- 🔗 Raciocínio estável de forma longa: Projetado para oferecer estabilidade inabalável em longas cadeias de raciocínio e instruções complexas.
- 🤖 Integração de agentes: Oferece suporte completo à chamada de funções e à integração perfeita em estruturas de agentes que exigem soluções analíticas passo a passo.
- 🌐 Multilíngue e multimodal: Oferece uma sólida compreensão multilíngue e suporta diversas tarefas de raciocínio em vários idiomas e modalidades internacionalmente.
🎯 Casos de uso
- 🔬 Pesquisa científica: Ideal para geração de hipóteses complexas e análise de dados profundos.
- 💻 Engenharia e Matemática: Possui excelente capacidade de resolução de problemas, demonstrações e síntese/depuração de código sofisticado.
- ⚖️ Análise Jurídica: Permite a análise detalhada de casos jurídicos e a construção de argumentos estruturados.
- 📊 Finanças e Negócios: Auxilia na modelagem de riscos financeiros e no planejamento estratégico de negócios com etapas de decisão transparentes.
- ⚕️ Auxílio no diagnóstico médico: Proporciona transparência no raciocínio e explicações detalhadas para auxiliar no diagnóstico.
- 📄 Análise de Documentos de Contexto Amplo: Ideal para fluxos de trabalho com análise e recuperação de documentos que exigem contexto profundo.
Exemplo codificado
A seguir, apresentamos uma representação de como interagir com o modelo de pensamento Qwen3-Next-80B-A3B via API (por exemplo, preenchimento automático de chat compatível com OpenAI). Os detalhes reais da implementação podem variar dependendo do seu ambiente.
↔️ Comparação com outros modelos líderes
Contra Qwen3-32B
Qwen3-Next-80B-A3B ativa apenas 3 bilhões de parâmetros por token, em contraste com a ativação completa de Qwen3-32B. Isso faz com que Qwen3-Next seja sobre 10 vezes mais eficiente tanto nos custos de treinamento quanto nos de inferência. Além disso, oferece mais de Velocidade de saída 10 vezes mais rápida em cenários de contexto extenso (acima de 32 mil tokens), alcançando ao mesmo tempo uma precisão superior no raciocínio e em tarefas complexas.
Contra Qwen3-235B
Apesar de ter significativamente menos parâmetros ativos, o Qwen3-Next-80B-A3B se aproxima notavelmente dos níveis de desempenho do Qwen3-235B, que possui 235 bilhões de parâmetros, especialmente no seguimento de instruções e no raciocínio de contexto longo. Ele atinge um excelente equilíbrio entre eficiência computacional e alta qualidade do modelo, tornando-o altamente adequado para ambientes de produção.
Contra Google Gemini-2.5-Flash-Thinking
A variante Qwen3-Next-80B-A3B Thinking supera comprovadamente a variante Google Gemini-2.5-Flash-Thinking em áreas críticas como raciocínio em cadeia e tarefas de instrução de múltiplas rodadasEsse desempenho superior vem acompanhado de custos operacionais substancialmente menores, atribuídos à sua ativação esparsa e às capacidades de previsão de múltiplos tokens.
Vs. Lhama 3.1-70B
O Qwen3-Next-80B-A3B oferece melhorias. compreensão do contexto de longo alcance e estabilidade de raciocínio superior em janelas de contexto muito maiores (escalável até 1 milhão de tokens), superando significativamente as limitações de janela nativas do Llama 3.1-70B. Sua arquitetura MoE esparsa também lhe confere eficiência superior em grande escala.
❓ Perguntas frequentes (FAQ)
Q1: O que torna o Qwen3-Next-80B-A3B Thinking único para tarefas de raciocínio?
A1: Ele foi projetado especificamente com uma otimização de "Modo de Pensamento" para resolução de problemas complexos em várias etapas e raciocínio lógico, gerando rastros de raciocínio estruturados por padrão. Sua arquitetura MoE esparsa também garante eficiência sem comprometer as capacidades analíticas avançadas.
Q2: Como a arquitetura MoE esparsa beneficia este modelo?
A2: A arquitetura esparsa de Mistura de Especialistas (MoE) significa que apenas 3 bilhões dos seus 80 bilhões de parâmetros estão ativos por token. Isso reduz significativamente os custos de inferência, aumenta a velocidade de processamento e mantém um alto rendimento, especialmente para tarefas de raciocínio complexas.
Q3: Qual é a janela de contexto máxima suportada pelo Qwen3-Next-80B-A3B Thinking?
A3: O modelo suporta nativamente uma ampla janela de contexto de 262 mil tokens e, com métodos de escalonamento especializados, pode ser expandido para até impressionantes 1 milhão de tokens, permitindo uma compreensão superior de contextos longos.
Q4: O pensamento Qwen3-Next-80B-A3B pode ser integrado em sistemas de agentes?
A4: Sim, oferece suporte completo à chamada de funções e foi projetado para integração perfeita em estruturas de agentes que exigem soluções analíticas precisas e passo a passo.
Q5: Como seu desempenho se compara a outros grandes modelos de linguagem, como o Llama 3.1-70B?
A5: O algoritmo Qwen3-Next-80B-A3B Thinking oferece melhor compreensão do contexto a longo prazo e estabilidade de raciocínio em janelas de contexto significativamente maiores (até 1 milhão de tokens) em comparação com o Llama 3.1-70B. Sua arquitetura MoE esparsa também proporciona eficiência superior em grande escala.
Playground de IA



Conecte-se