



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-non-thinking-v3.2-exp',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-non-thinking-v3.2-exp",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalhes do produto
Visão geral do modelo
DeepSeek-V3.2-Exp Non-Thinking, lançado em setembro de 2025, é um Modelo experimental de linguagem em larga escala baseado em transformadoresProjetado como uma evolução do DeepSeek V3.1-Terminus, ele introduz a inovadora Atenção Esparsa DeepSeek (DSA) mecanismo. Isso possibilita uma compreensão de contexto extenso eficiente e escalável, proporcionando inferência mais rápida e econômica ao focar seletivamente em tokens essenciais.
Especificações técnicas
- ⚙️ Geração de modelos: Desenvolvimento intermediário experimental do DeepSeek V3.1
- 🧠 Tipo de arquitetura: Transformer com atenção esparsa de grão fino (DeepSeek Sparse Attention - DSA)
- 📏 Alinhamento de parâmetros: Treinamento alinhado ao V3.1-Terminus para fins de validação comparativa.
- 📖 Comprimento do contexto: Suporta até 128.000 tokens, adequado para processamento de múltiplos documentos e textos longos
- 📤 Número máximo de tokens de saída: 4.000 padrão, suporta até 8.000 tokens por resposta
Indicadores de desempenho
O desempenho permanece igual ou superior ao da versão V3.1-Terminus em diversos domínios, como raciocínio, codificação e tarefas interativas do mundo real, ao mesmo tempo que proporciona ganhos substanciais de eficiência.
- ✅ GPQA-Diamond (Respostas a Perguntas): Pontuações 79,9, ligeiramente abaixo da versão 3.1 (80,7)
- 💻 LiveCodeBench (Programação): Alcança 74,1, próximo de 74,9 da versão 3.1
- ➕ AIME 2025 (Matemática): Pontuações 89,3, superando a versão 3.1 (88,4)
- 🏆 Teste de desempenho de programação no Codeforces: Apresenta-se em 2121, melhor que a versão 3.1 (2046)
- 🛠️ BrowseComp (Uso de Ferramenta de Agente): Conquista 40.1, melhor que a versão 3.1 (38,5)
Principais características
- ✨ DeepSeek Sparse Attention (DSA): Mecanismo inovador de atenção esparsa de granularidade fina, que concentra a computação apenas nos tokens mais importantes, reduzindo drasticamente os requisitos de computação e memória.
- 📚 Suporte contextual massivo: Processos até 128.000 tokens (mais de 300 páginas de texto), permitindo a compreensão de documentos extensos e fluxos de trabalho com múltiplos documentos.
- 💰 Redução significativa de custos: Custo de inferência reduzido em mais de 50% Em comparação com o DeepSeek V3.1-Terminus, torna-o altamente eficiente para uso em larga escala.
- ⚡ Alta eficiência e velocidade: Otimizado para inferência rápida, oferecendo aceleração de 2 a 3 vezes no processamento de textos longos em comparação com versões anteriores, sem sacrificar a qualidade da saída.
- 🏆 Mantém a qualidade: Iguala ou supera o desempenho do DeepSeek V3.1-Terminus em vários benchmarks com qualidade de geração comparável.
- ⚖️ Escalável e estável: Otimizado para implantação em larga escala com consumo de memória aprimorado e estabilidade de inferência em contextos de maior duração.
- 🚀 Modo Não-Pensamento: Prioriza respostas diretas e rápidas sem gerar etapas de raciocínio intermediárias, ideal para aplicações sensíveis à latência.
Preços da API
- Tokens de entrada (CACHE HIT): $ 0,0294 por 1 milhão de tokens
- Tokens de entrada (FALHA DE CACHE): $ 0,294 por 1 milhão de tokens
- Tokens de saída: $ 0,441 por 1 milhão de tokens
Casos de uso
- 💬 Chatbots e assistentes interativos rápidos: Ideal para aplicações onde a capacidade de resposta é fundamental.
- 📝 Resumo e extração de documentos longos: Lida com textos extensos de forma eficiente, sem sobrecarga de explicações.
- 💻 Geração/Completamento de Código: Processa rapidamente grandes repositórios onde a velocidade é fundamental.
- 🔍 Busca e recuperação de múltiplos documentos: Oferece resultados de baixa latência em múltiplas fontes.
- 🔗 Integrações de Pipeline: Fornece resultados JSON diretos, sem ruído de raciocínio intermediário, perfeito para fluxos de trabalho automatizados.
Exemplo de código
Comparação com outros modelos
VS. DeepSeek V3.1-Terminus: A versão V3.2-Exp introduz o Mecanismo de Atenção Esparsa do DeepSeek, reduzindo significativamente os custos computacionais para contextos longos, mantendo uma qualidade de saída quase idêntica. Atinge desempenho de benchmark semelhante, mas é cerca de 50% mais barato e notavelmente mais rápido em entradas grandes em comparação com o DeepSeek V3.1-Terminus.
VS. GPT-5: Embora o GPT-5 lidere na compreensão da linguagem natural e na qualidade de geração em uma ampla gama de tarefas, o DeepSeek V3.2-Exp se destaca notavelmente no processamento de contextos extremamente longos (até 1000 palavras). 128 mil tokens) de forma mais econômica. A atenção esparsa do DeepSeek proporciona uma grande vantagem em termos de eficiência para aplicações com grande volume de documentos e múltiplas etapas.
VS. Lhama 3: Os modelos LLaMA oferecem desempenho competitivo com atenção densa, mas normalmente limitam o tamanho do contexto em 32 mil tokens ou menosA arquitetura do DeepSeek visa a escalabilidade em contextos longos com atenção esparsa, permitindo um desempenho mais suave em documentos e conjuntos de dados muito grandes, onde o LLaMA pode apresentar degradação ou se tornar ineficiente.
Perguntas frequentes
❓ O que é o DeepSeek V3.2-Exp Non-Thinking e como ele difere dos modelos padrão?
DeepSeek V3.2-Exp Non-Thinking é uma variante especializada otimizada para respostas rápidas e diretas, sem a necessidade de longas cadeias de raciocínio. Ao contrário dos modelos padrão que utilizam raciocínio em várias etapas, esta versão prioriza velocidade e eficiência, fornecendo respostas imediatas sem o processo de "pensamento", tornando-a ideal para aplicações que exigem respostas rápidas onde o raciocínio elaborado não é necessário.
❓ Quais são os principais casos de uso para um modelo de IA não pensante?
Os principais casos de uso incluem: respostas de atendimento ao cliente em alto volume, sistemas simples de perguntas e respostas, tarefas de classificação de conteúdo, recuperação básica de informações, solicitações de tradução diretas e qualquer cenário em que velocidade e capacidade de processamento sejam mais importantes do que raciocínio analítico complexo. É particularmente valioso para aplicações com requisitos rigorosos de latência ou quando muitos usuários simultâneos realizam consultas simples.
❓ Quais as vantagens de desempenho oferecidas pela versão não pensante?
A variante não processual oferece vantagens significativas em: latência de inferência reduzida (frequentemente 2 a 3 vezes mais rápida), custos computacionais menores, maior capacidade de processamento para solicitações simultâneas, escalabilidade aprimorada e tempos de resposta mais previsíveis. Esses benefícios decorrem da eliminação da sobrecarga computacional de gerar e processar etapas de raciocínio extensas antes de fornecer as respostas.
❓ Que tipos de consultas não são adequados para modelos não pensantes?
Questões que exigem resolução de problemas complexos, raciocínio em várias etapas, demonstrações matemáticas, deduções lógicas, brainstorming criativo ou considerações éticas sutis não são ideais para modelos não pensantes. Esses cenários se beneficiam de modelos padrão que podem se engajar em raciocínio em cadeia para chegar a respostas mais precisas e bem fundamentadas por meio de análise sistemática.
❓ Como os desenvolvedores podem escolher entre variantes de modelos que pensam e variantes que não pensam?
Os desenvolvedores devem escolher com base em: requisitos de tempo de resposta (modelos não-pensativos para necessidades de menos de um segundo), complexidade da consulta (modelos pensantes para tarefas analíticas), restrições de custo (modelos não-pensativos para aplicações com orçamento limitado), objetivos de experiência do usuário e se a aplicação se beneficia de processos de raciocínio transparentes. Muitas aplicações utilizam uma abordagem híbrida, direcionando consultas simples para modelos não-pensativos e reservando modelos pensantes para tarefas complexas.
Playground de IA



Conecte-se