



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-non-thinking-v3.2-exp',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-non-thinking-v3.2-exp",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalles del producto
Descripción general del modelo
DeepSeek-V3.2-Exp Non-Thinking, lanzado en septiembre de 2025, es un Modelo de lenguaje experimental a gran escala basado en transformadoresDiseñado como una evolución de DeepSeek V3.1-Terminus, introduce la innovadora DeepSeek Sparse Attention (DSA) Mecanismo. Esto permite una comprensión eficiente y escalable de contextos extensos, lo que proporciona una inferencia más rápida y rentable al prestar atención selectivamente a los tokens esenciales.
Especificaciones técnicas
- ⚙️ Generación de modelos: Desarrollo intermedio experimental de DeepSeek V3.1
- 🧠 Tipo de arquitectura: Transformador con atención dispersa de grano fino (DeepSeek Sparse Attention - DSA)
- 📏 Alineación de parámetros: Capacitación alineada con V3.1-Terminus para validación comparativa
- 📖 Longitud del contexto: Admite hasta 128.000 tokensAdecuado para el procesamiento de múltiples documentos y textos extensos.
- 📤 Tokens de salida máximos: 4.000 por defecto, admite hasta 8.000 tokens por respuesta
Indicadores de rendimiento
El rendimiento se mantiene a la par o incluso superior al de V3.1-Terminus en múltiples ámbitos, como el razonamiento, la codificación y las tareas de agentes del mundo real, al tiempo que ofrece mejoras sustanciales en la eficiencia.
- ✅ GPQA-Diamante (Preguntas y respuestas): Montones 79.9, ligeramente por debajo de V3.1 (80.7)
- 💻 LiveCodeBench (Programación): Alcanza 74.1, cerca del 74,9 de V3.1
- ➕ AIME 2025 (Matemáticas): Montones 89.3, superando a V3.1 (88.4)
- 🏆 Prueba de rendimiento de programación de Codeforces: Actúa en 2121, mejor que V3.1 (2046)
- 🛠️ BrowseComp (Uso de la herramienta Agentic): Logros 40.1, mejor que V3.1 (38.5)
Características principales
- ✨ DeepSeek Sparse Attention (DSA): Mecanismo innovador de atención dispersa y de grano fino que centra el cálculo únicamente en los tokens más importantes, reduciendo drásticamente los requisitos de computación y memoria.
- 📚 Soporte de contexto masivo: Procesos hasta 128.000 tokens (más de 300 páginas de texto), lo que permite la comprensión de documentos extensos y flujos de trabajo con múltiples documentos.
- 💰 Reducción significativa de costos: Costo de inferencia reducido en más 50% en comparación con DeepSeek V3.1-Terminus, lo que lo hace altamente eficiente para un uso a gran escala.
- ⚡ Alta eficiencia y velocidad: Optimizado para una inferencia rápida, que ofrece aceleración 2-3x en el procesamiento de textos largos en comparación con versiones anteriores sin sacrificar la calidad de la salida.
- 🏆 Mantiene la calidad: Iguala o supera el rendimiento de DeepSeek V3.1-Terminus en múltiples pruebas comparativas con una calidad de generación comparable.
- ⚖️ Escalable y estable: Optimizado para implementaciones a gran escala con un consumo de memoria mejorado y una mayor estabilidad de la inferencia en contextos de mayor longitud.
- 🚀 Modo sin pensamiento: Prioriza las respuestas directas y rápidas sin generar pasos de razonamiento intermedios, lo que resulta perfecto para aplicaciones sensibles a la latencia.
Precios de API
- Tokens de entrada (ACIERTO DE CACHÉ): $0.0294 por cada millón de tokens
- Tokens de entrada (fallo de caché): $0.294 por cada millón de tokens
- Tokens de salida: $0.441 por cada millón de tokens
Casos de uso
- 💬 Chatbots y asistentes interactivos rápidos: Ideal para aplicaciones donde la capacidad de respuesta es fundamental.
- 📝 Resumen y extracción de documentos extensos: Maneja textos extensos de manera eficiente sin necesidad de explicaciones adicionales.
- 💻 Generación/Completado de código: Procesa rápidamente grandes repositorios donde la velocidad es clave.
- 🔍 Búsqueda y recuperación de múltiples documentos: Proporciona resultados de baja latencia en múltiples fuentes.
- 🔗 Integraciones de canalización: Ofrece resultados JSON directos sin el ruido del razonamiento intermedio, perfecto para flujos de trabajo automatizados.
Ejemplo de código
Comparación con otros modelos
VS. DeepSeek V3.1-Terminus: V3.2-Exp introduce el Mecanismo de atención dispersa de DeepSeek, reduciendo significativamente los costos de computación para contextos largos mientras mantiene una calidad de salida casi idéntica. Logra un rendimiento de referencia similar pero es aproximadamente 50% más barato y es notablemente más rápido con entradas grandes en comparación con DeepSeek V3.1-Terminus.
VS. GPT-5: Mientras que GPT-5 lidera en comprensión del lenguaje en bruto y calidad de generación en una amplia gama de tareas, DeepSeek V3.2-Exp sobresale notablemente en el manejo de contextos extremadamente largos (hasta 128.000 tokens) de forma más rentable. La escasa atención de DeepSeek proporciona una gran ventaja de eficiencia para aplicaciones con gran cantidad de documentos y de múltiples turnos.
VS. LLaMA 3: Los modelos LLaMA ofrecen un rendimiento competitivo con atención densa, pero normalmente limitan el tamaño del contexto a 32.000 tokens o menosLa arquitectura de DeepSeek busca la escalabilidad de contexto extenso con atención dispersa, lo que permite un rendimiento más fluido en documentos y conjuntos de datos muy grandes donde LLaMA puede degradarse o volverse ineficiente.
Preguntas frecuentes
❓ ¿Qué es DeepSeek V3.2-Exp Non-Thinking y en qué se diferencia de los modelos estándar?
DeepSeek V3.2-Exp Non-Thinking es una variante especializada optimizada para respuestas rápidas y directas sin extensas cadenas de razonamiento. A diferencia de los modelos estándar que emplean razonamientos de varios pasos, esta versión prioriza la velocidad y la eficiencia al proporcionar respuestas inmediatas sin el proceso de "pensamiento", lo que la hace ideal para aplicaciones que requieren respuestas rápidas donde no es necesario un razonamiento elaborado.
❓ ¿Cuáles son los principales casos de uso de un modelo de IA que no piensa?
Entre sus principales aplicaciones se incluyen: respuestas de atención al cliente de alto volumen, sistemas sencillos de preguntas y respuestas, tareas de clasificación de contenido, recuperación básica de información, solicitudes de traducción directas y cualquier situación en la que la velocidad y el rendimiento sean más importantes que el razonamiento analítico profundo. Resulta especialmente útil para aplicaciones con estrictos requisitos de latencia o al atender a muchos usuarios concurrentes con consultas sencillas.
❓ ¿Qué ventajas de rendimiento ofrece la versión que no requiere pensamiento?
La variante sin razonamiento ofrece ventajas significativas en cuanto a: menor latencia de inferencia (a menudo 2 o 3 veces más rápida), menores costos computacionales, mayor rendimiento para solicitudes concurrentes, mejor escalabilidad y tiempos de respuesta más predecibles. Estos beneficios se derivan de omitir la sobrecarga computacional que supone generar y procesar pasos de razonamiento extensos antes de ofrecer respuestas.
❓ ¿Qué tipos de consultas no son adecuadas para modelos que no piensan?
Las consultas que requieren resolución de problemas complejos, razonamiento en varios pasos, demostraciones matemáticas, deducciones lógicas, lluvia de ideas creativa o consideraciones éticas matizadas no son ideales para modelos que no se basan en el pensamiento. Estos escenarios se benefician de modelos estándar que pueden utilizar el razonamiento en cadena para llegar a respuestas más precisas y bien fundamentadas mediante un análisis sistemático.
❓ ¿Cómo pueden los desarrolladores elegir entre variantes de modelos que requieren pensamiento lógico y variantes que no lo requieren?
Los desarrolladores deben elegir en función de: los requisitos de tiempo de respuesta (modelos sin razonamiento para necesidades de fracciones de segundo), la complejidad de las consultas (modelos con razonamiento para tareas analíticas), las restricciones de costos (modelos sin razonamiento para aplicaciones con presupuesto limitado), los objetivos de experiencia del usuario y si la aplicación se beneficia de procesos de razonamiento transparentes. Muchas aplicaciones utilizan un enfoque híbrido, dirigiendo las consultas simples a modelos sin razonamiento y reservando los modelos con razonamiento para tareas complejas.
Campo de juegos de IA



Acceso