



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'alibaba/qwen3-next-80b-a3b-thinking',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="alibaba/qwen3-next-80b-a3b-thinking",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalle del producto
✨ Presentamos Qwen3-Next-80B-A3B Thinking: tu IA de razonamiento avanzado
Descripción general
El Pensamiento Qwen3-Next-80B-A3B Model se erige como una IA de chat de primer nivel centrada en el razonamiento, diseñada específicamente para la resolución de problemas complejos de varios pasos y tareas avanzadas de cadena de pensamiento. Genera de forma nativa rastros de pensamiento estructurados, lo que la hace excepcionalmente competente en dominios que exigen un razonamiento analítico profundo, como demostraciones matemáticas complejas, síntesis robusta de código, deducción lógica y planificación agencial sofisticada.
💡 Especificaciones técnicas
Qwen3-Next-80B-A3B Thinking es un modelo de lenguaje avanzado que presume 80 mil millones de parámetrosUna innovación clave es su arquitectura dispersa de mezcla de expertos (MoE), que garantiza solo 3 mil millones de parámetros se utilizan activamente por tokenEste diseño facilita una eficiencia notable.
- ⚙️ Arquitectura: 48 capas con una dimensión oculta de 2048, que emplean un diseño híbrido con mecanismos de compuerta y normalización avanzada (RMSNorm).
- 📖 Ventana de contexto: Admite una expansión 262 mil tokens, extensible hasta 1 millón de tokens con métodos de escalamiento especializados para una comprensión superior del contexto largo.
- ⚡ Eficiencia: Entrenado con estrategias híbridas que hacen un uso eficiente de los recursos, ofrece un alto rendimiento en razonamiento complejo, matemáticas, codificación y resolución de problemas de varios pasos, al tiempo que mantiene bajos costos de inferencia y un alto rendimiento.
📈 Puntos de referencia de rendimiento
MMLU (Conocimientos generales)
78,5%
HumanEval (generación de código)
82,1%
GSM8K (Matemáticas)
91,2%
MT-Bench (Seguimiento de instrucciones)
84,3%
💰 Precios de la API
Aporte:
$0.1575
Producción:
$1.6
🚀 Características principales
- 🧠 Optimización del modo de pensamiento: Diseñado específicamente para cadenas de pensamiento y resolución de problemas complejos, produce trazas de salida más largas y detalladas para una mayor transparencia.
- ✅ Activación dispersa: Activa solo 3 mil millones de 80 mil millones de parámetros por token, lo que permite una inferencia rápida y una significativa eficiencia de costos.
- ⚡ Predicción de múltiples tokens: Acelera el proceso de decodificación al predecir múltiples tokens simultáneamente, lo que aumenta la velocidad de salida.
- 🔗 Razonamiento estable de forma larga: Diseñado para una estabilidad inquebrantable en cadenas de razonamiento extendidas e instrucciones complejas.
- 🤖 Integración del agente: Admite totalmente llamadas de funciones e integración perfecta en marcos de agentes que exigen soluciones analíticas paso a paso.
- 🌐 Multilingüe y multimodal: Ofrece una sólida comprensión multilingüe y admite diversas tareas de razonamiento en varios idiomas y modalidades a nivel internacional.
🎯 Casos de uso
- 🔬 Investigación científica: Ideal para la generación de hipótesis profundas y el análisis de datos complejos.
- 💻 Ingeniería y matemáticas: Se destaca en resolución de problemas, pruebas y síntesis/depuración de código sofisticado.
- ⚖️ Análisis legal: Apoya el análisis detallado de casos legales y la construcción de argumentos estructurados.
- 📊 Finanzas y negocios: Ayuda en el modelado de riesgos financieros y la planificación empresarial estratégica con pasos de decisión transparentes.
- ⚕️ Asistencia en diagnóstico médico: Proporciona transparencia de razonamiento y explicaciones detalladas para apoyar el diagnóstico.
- 📄 Análisis de documentos de contexto largo: Perfecto para análisis de documentos y flujos de trabajo de recuperación mejorados que requieren un contexto profundo.
Ejemplo codificado
A continuación se muestra una representación de cómo interactuar con el modelo de pensamiento Qwen3-Next-80B-A3B mediante la API (p. ej., finalización de chat compatible con OpenAI). Los detalles de la implementación real pueden variar según el entorno.
↔️ Comparación con otros modelos líderes
Contra. Qwen3-32B
Qwen3-Next-80B-A3B se activa únicamente 3 mil millones de parámetros por token, en contraste con la activación completa de Qwen3-32B. Esto hace que Qwen3-Next se trate de... 10 veces más eficiente en costos de entrenamiento e inferencia. Además, ofrece más de Velocidad de salida 10 veces más rápida en escenarios de contexto largo (más allá de 32K tokens) mientras se logra una precisión superior en el razonamiento y en tareas complejas.
Contra. Qwen3-235B
A pesar de tener significativamente menos parámetros activos, Qwen3-Next-80B-A3B se acerca notablemente a los niveles de rendimiento de Qwen3-235B, un algoritmo mucho más grande con 235 mil millones de parámetros, especialmente en el seguimiento de instrucciones y el razonamiento de contexto largo. Logra un excelente equilibrio entre... eficiencia computacional y alta calidad del modelo, lo que lo hace muy adecuado para entornos de producción.
Contra. Google Gemini-2.5-Flash-Thinking
La variante Thinking Qwen3-Next-80B-A3B supera demostrablemente a Google Gemini-2.5-Flash-Thinking en áreas críticas como razonamiento en cadena de pensamiento y tareas de instrucción multi-turnoEste rendimiento superior viene acompañado de costos operativos sustancialmente menores, atribuidos a su escasa activación y capacidades de predicción de múltiples tokens.
Vs. Llama 3.1-70B
Qwen3-Next-80B-A3B ofrece mejoras comprensión del contexto a largo plazo y una estabilidad de razonamiento superior en ventanas de contexto mucho más grandes (escalables hasta 1 millón de tokens), superando significativamente las limitaciones de la ventana nativa de Llama 3.1-70B. Su arquitectura MoE dispersa también le otorga una eficiencia superior a escala.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué hace que Qwen3-Next-80B-A3B Thinking sea único para las tareas de razonamiento?
A1: Está diseñado específicamente con una optimización de "Modo de Pensamiento" para la resolución de problemas complejos de varios pasos y la cadena de pensamiento, generando trazas de razonamiento estructurado por defecto. Su arquitectura de MoE dispersa también garantiza la eficiencia sin comprometer las capacidades analíticas profundas.
P2: ¿Cómo beneficia la arquitectura MoE dispersa a este modelo?
A2: La arquitectura dispersa de Mezcla de Expertos (MoE) implica que solo 3 mil millones de sus 80 mil millones de parámetros están activos por token. Esto reduce significativamente los costos de inferencia, aumenta la velocidad de procesamiento y mantiene un alto rendimiento, especialmente para tareas de razonamiento complejas.
P3: ¿Cuál es la ventana de contexto máxima admitida por Qwen3-Next-80B-A3B Thinking?
A3: El modelo admite de forma nativa una extensa ventana de contexto de 262 000 tokens y, con métodos de escalamiento especializados, se puede ampliar hasta un impresionante millón de tokens, lo que permite una comprensión superior del contexto largo.
P4: ¿Se puede integrar Qwen3-Next-80B-A3B Thinking en sistemas de agentes?
A4: Sí, admite totalmente la llamada de funciones y está diseñado para una integración perfecta en marcos de agentes que requieren soluciones analíticas precisas, paso a paso.
P5: ¿Cómo se compara su rendimiento con el de otros modelos de lenguaje grandes como Llama 3.1-70B?
A5: Qwen3-Next-80B-A3B Thinking ofrece una mejor comprensión del contexto a largo plazo y estabilidad de razonamiento en ventanas de contexto significativamente más amplias (hasta un millón de tokens) en comparación con Llama 3.1-70B. Su arquitectura de MoE dispersa también proporciona una eficiencia superior a escala.
Patio de juegos de IA



Acceso