qwen-bg
max-ico04
Em
0,182
Fora
0,364
max-ico02
Bater papo
max-ico03
Ativo
Flash DeepSeek V4
No cenário de 1 milhão de tokens, o V4 Flash atinge apenas 10% dos FLOPs de token único e 7% do tamanho do cache KV em comparação com o DeepSeek-V3.2 — um salto drástico de eficiência que torna o atendimento de contextos muito longos realmente econômico.
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

qwenmax-bg
deepseek-copy (1).svg
Flash DeepSeek V4

DeepSeek/Modelos/Flash V4

DeepSeek Flash V4

Um modelo de Mistura de Especialistas com 284 bilhões de parâmetros, projetado para inferência rápida e acessível sem sacrificar a profundidade do raciocínio. Treze bilhões de parâmetros ativos por passagem direta. Um milhão de tokens de contexto.

Prévia em 24 de abril de 2026 Pesos Livres Arquitetura do Ministério da Educação Contexto 1M
284B
Parâmetros totais
Arquitetura MoE
13B
Ativo por Passe
por passe para a frente
1M
Janela de contexto
fichas
84 t/s
Velocidade de saída
vs 52 mediana
1,00s
TTFT
vs mediana de 2,03s
47
Índice de Inteligência
Peso médio em competição aberta: 28
// 01 — VISÃO GERAL

O que é o DeepSeek V4 Flash?

O DeepSeek V4 Flash é o membro da quarta geração da família de modelos DeepSeek com foco em eficiência. Ele se posiciona ao lado do V4 Pro como uma opção complementar — enquanto o Pro otimiza para máxima inteligência, o Flash otimiza para Taxa de transferência, latência e custo por token sem comprometer drasticamente a qualidade.

O modelo utiliza um design de Mistura de Especialistas esparso: embora contenha 284 bilhões de parâmetros no total, apenas 13 bilhões estão ativos durante qualquer chamada de inferência individual. Isso se traduz diretamente em menor computação e menor custo, mantendo as saídas mais nítidas do que um modelo denso de 13 bits conseguiria sozinho.

Preços da API (por 1 milhão de tokens)
Entrada (falha de cache)
$ 0,18
por 1 milhão de tokens
Entrada (acerto de cache)
$ 0,04
por 1 milhão de tokens
Saída
$ 0,36
por 1 milhão de tokens
// 02 — ARQUITETURA

Arquitetura e principais inovações

Diversas decisões arquitetônicas diferenciam o V4 Flash das versões anteriores do DeepSeek e do campo mais amplo do código aberto.

Atenção Esparsa Comprimida (CSA)
Comprime os caches KV ao longo da dimensão de sequência (taxa 4 no Flash) e, em seguida, aplica a Atenção Esparsa DeepSeek. Um indexador Lightning seleciona o Os 512 mais relevantes Entradas KV compactadas por consulta, além de uma janela deslizante de 128 tokens para que o contexto local nunca seja perdido.
Atenção Altamente Comprimida (HCA)
Aplica uma taxa de compressão muito mais agressiva de 128Em seguida, realiza uma atenção densa sobre essa representação comprimida, fornecendo ao modelo uma visão global eficiente de tokens distantes em cada camada. As camadas CSA e HCA são intercaladas ao longo de todo o processo.
Hiperconexões com restrições de variedade
Fortalece as conexões residuais convencionais para aumentar a estabilidade da propagação do sinal entre as camadas, enquanto preservando a expressividade do modelo — um fator fundamental para manter a qualidade em altas taxas de compressão.
Roteamento MoE + Otimizador de Múons
As três primeiras camadas MoE usam roteamento Hash; as camadas restantes usam roteamento DeepSeekMoE aprendido. Previsão de múltiplos tokens Habilitado na profundidade 1. Otimizador de múons durante o treinamento, juntamente com precisão mista FP4/FP8 para baixo custo de treinamento.
Dados de treinamento

Pré-treinado em mais de 32 trilhões de tokens diversos e de alta qualidadeO pós-treinamento utilizou um pipeline de duas etapas: cultivo independente de especialistas específicos do domínio via SFT e RL com GRPO, seguido por consolidação unificada do modelo via destilação on-policy.

// 03 — MODOS DE RACIOCÍNIO

Modos de Raciocínio

O V4 Flash suporta três modos de esforço de raciocínio configuráveis ​​— controle direto sobre a relação entre latência e qualidade sem precisar trocar de modelo completamente.

Não-pensamento
Nenhuma cadeia de raciocínio gerada. Latência mais rápida, menor número de tokens. Ideal para consultas simples, bate-papo e etapas de recuperação de RAG (Raciocínio Aleatório-Aleatório).
Pensamento
Fluxograma interno de pensamento antes da resposta. Modo padrão para codificação, raciocínio estruturado e tarefas agentivas de múltiplas etapas.
Pense Max
Orçamento de raciocínio ampliado. Aproxima-se da qualidade do V4 Pro em matemática complexa, STEM e demonstrações formais. Contexto recomendado: mais de 384 mil tokens.
// 04 — REFERÊNCIAS

Desempenho de referência

No Índice de Inteligência Artificial Analítica v4.0 (que abrange GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench e outros), o Flash V4 no modo de raciocínio apresenta pontuações 47 versus uma mediana de 28 na categoria peso livre.

REFERÊNCIA
PONTUAÇÃO
STATUS
Índice de Inteligência (AA v4.0)
47 / 100
+19 em relação à mediana
Putnam-200 Pass@8
81,0
Nível superior
HMMT fevereiro de 2026
95,2
Líder
IMOAnswerBench
89,8
Líder
Velocidade de saída
84 t/s
1,6× mediana
TTFT
1,00s
2 vezes mais rápido
// 05 — CASOS DE USO

Casos de uso

O V4 Flash se posiciona como a opção padrão com melhor custo-benefício para a maioria dos cenários de servidor — o modelo que você escolhe primeiro, a menos que a inteligência de ponta máxima seja explicitamente exigida.

  • Assistência de Codificação Compreensão de repositórios de contexto extenso, revisão de diferenças e preenchimento automático com alta capacidade de processamento. O contexto de 1 milhão de tokens absorve bases de código médias inteiras em uma única chamada.
  • Gasodutos RAG Síntese de recuperação de alto volume, onde os acertos de cache reduzem os custos de entrada a frações de centavo. Ideal para cargas de trabalho de produção de perguntas e respostas com grande volume de documentos.
  • Agente Loops de chamada de ferramentas em várias etapas. Apresenta desempenho equivalente ao V4 Pro em tarefas simples de agentes, com custo por token 3 a 4 vezes menor.
  • Processamento de Documentos O contexto de 1 milhão de tokens absorve contratos inteiros, bases de código ou arquivos de relatórios em uma única chamada — sem necessidade de fragmentação.
  • Matemática / STEM O modo Think Max produz raciocínio formal de ponta por uma fração do preço do Pro. 95,2 no HMMT em fevereiro de 2026.
  • Chat e suporte O TTFT inferior a um segundo e a taxa de transferência de 84 t/s mantêm a latência de conversação imperceptível em aplicações em tempo real.
// 06 — COMPARAÇÕES

Como se compara

vs.
DeepSeek V4 Pro
O Pro possui 1,6T de parâmetros ativos no total / 49B. O flash tem aproximadamente 3 a 4 vezes mais barato e mais rápido, com raciocínio que se aproxima bastante da qualidade Pro. Tarefas simples de agentes: paridade. Cadeias de conhecimento intensivo: liderança Pro.
vs.
DeepSeek V3.2
O Flash usa 10% dos FLOPs da versão 3.2 e 7% do seu cache KV em um contexto de 1 milhão de tokens — um salto geracional em eficiência — ao mesmo tempo que introduz atenção híbrida e modos de raciocínio configuráveis ​​que faltavam na versão 3.2.
vs.
GPT-5.4 Nano
O V4 Flash é atualmente o mais barato entre os modelos pequenos e capazes, oferecendo um preço inferior ao do GPT-5.4 Nano, ao mesmo tempo que disponibiliza pesos abertos e contexto de 1 milhão de tokens, algo que a maioria dos modelos da classe nano não oferece.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.
Contate-nos
api-right-1
modelo-bg02-1

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos