



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-v4-flash',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

DeepSeek Flash V4
Um modelo de Mistura de Especialistas com 284 bilhões de parâmetros, projetado para inferência rápida e acessível sem sacrificar a profundidade do raciocínio. Treze bilhões de parâmetros ativos por passagem direta. Um milhão de tokens de contexto.
O que é o DeepSeek V4 Flash?
O DeepSeek V4 Flash é o membro da quarta geração da família de modelos DeepSeek com foco em eficiência. Ele se posiciona ao lado do V4 Pro como uma opção complementar — enquanto o Pro otimiza para máxima inteligência, o Flash otimiza para Taxa de transferência, latência e custo por token sem comprometer drasticamente a qualidade.
O modelo utiliza um design de Mistura de Especialistas esparso: embora contenha 284 bilhões de parâmetros no total, apenas 13 bilhões estão ativos durante qualquer chamada de inferência individual. Isso se traduz diretamente em menor computação e menor custo, mantendo as saídas mais nítidas do que um modelo denso de 13 bits conseguiria sozinho.
Arquitetura e principais inovações
Diversas decisões arquitetônicas diferenciam o V4 Flash das versões anteriores do DeepSeek e do campo mais amplo do código aberto.
Pré-treinado em mais de 32 trilhões de tokens diversos e de alta qualidadeO pós-treinamento utilizou um pipeline de duas etapas: cultivo independente de especialistas específicos do domínio via SFT e RL com GRPO, seguido por consolidação unificada do modelo via destilação on-policy.
Modos de Raciocínio
O V4 Flash suporta três modos de esforço de raciocínio configuráveis — controle direto sobre a relação entre latência e qualidade sem precisar trocar de modelo completamente.
Desempenho de referência
No Índice de Inteligência Artificial Analítica v4.0 (que abrange GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench e outros), o Flash V4 no modo de raciocínio apresenta pontuações 47 versus uma mediana de 28 na categoria peso livre.
Casos de uso
O V4 Flash se posiciona como a opção padrão com melhor custo-benefício para a maioria dos cenários de servidor — o modelo que você escolhe primeiro, a menos que a inteligência de ponta máxima seja explicitamente exigida.
- Assistência de Codificação Compreensão de repositórios de contexto extenso, revisão de diferenças e preenchimento automático com alta capacidade de processamento. O contexto de 1 milhão de tokens absorve bases de código médias inteiras em uma única chamada.
- Gasodutos RAG Síntese de recuperação de alto volume, onde os acertos de cache reduzem os custos de entrada a frações de centavo. Ideal para cargas de trabalho de produção de perguntas e respostas com grande volume de documentos.
- Agente Loops de chamada de ferramentas em várias etapas. Apresenta desempenho equivalente ao V4 Pro em tarefas simples de agentes, com custo por token 3 a 4 vezes menor.
- Processamento de Documentos O contexto de 1 milhão de tokens absorve contratos inteiros, bases de código ou arquivos de relatórios em uma única chamada — sem necessidade de fragmentação.
- Matemática / STEM O modo Think Max produz raciocínio formal de ponta por uma fração do preço do Pro. 95,2 no HMMT em fevereiro de 2026.
- Chat e suporte O TTFT inferior a um segundo e a taxa de transferência de 84 t/s mantêm a latência de conversação imperceptível em aplicações em tempo real.
Como se compara
Playground de IA



Conecte-se