0,182

Fora

0,364

Bater papo

Ativo

Flash DeepSeek V4

No cenário de 1 milhão de tokens, o V4 Flash atinge apenas 10% dos FLOPs de token único e 7% do tamanho do cache KV em comparação com o DeepSeek-V3.2 — um salto drástico de eficiência que torna o atendimento de contextos muito longos realmente econômico.

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Contate-nos Explorar modelos

Flash DeepSeek V4

DeepSeek Flash V4

Um modelo de Mistura de Especialistas com 284 bilhões de parâmetros, projetado para inferência rápida e acessível sem sacrificar a profundidade do raciocínio. Treze bilhões de parâmetros ativos por passagem direta. Um milhão de tokens de contexto.

Prévia em 24 de abril de 2026 Pesos Livres Arquitetura do Ministério da Educação Contexto 1M

284B

Parâmetros totais

Arquitetura MoE

13B

Ativo por Passe

por passe para a frente

Janela de contexto

fichas

84 t/s

Velocidade de saída

vs 52 mediana

1,00s

TTFT

vs mediana de 2,03s

Índice de Inteligência

Peso médio em competição aberta: 28

// 01 — VISÃO GERAL

O que é o DeepSeek V4 Flash?

O DeepSeek V4 Flash é o membro da quarta geração da família de modelos DeepSeek com foco em eficiência. Ele se posiciona ao lado do V4 Pro como uma opção complementar — enquanto o Pro otimiza para máxima inteligência, o Flash otimiza para Taxa de transferência, latência e custo por token sem comprometer drasticamente a qualidade.

O modelo utiliza um design de Mistura de Especialistas esparso: embora contenha 284 bilhões de parâmetros no total, apenas 13 bilhões estão ativos durante qualquer chamada de inferência individual. Isso se traduz diretamente em menor computação e menor custo, mantendo as saídas mais nítidas do que um modelo denso de 13 bits conseguiria sozinho.

Preços da API (por 1 milhão de tokens)

Entrada (falha de cache)

$ 0,18

por 1 milhão de tokens

Entrada (acerto de cache)

$ 0,04

por 1 milhão de tokens

Saída

$ 0,36

por 1 milhão de tokens

// 02 — ARQUITETURA

Arquitetura e principais inovações

Diversas decisões arquitetônicas diferenciam o V4 Flash das versões anteriores do DeepSeek e do campo mais amplo do código aberto.

Atenção Esparsa Comprimida (CSA)

Comprime os caches KV ao longo da dimensão de sequência (taxa 4 no Flash) e, em seguida, aplica a Atenção Esparsa DeepSeek. Um indexador Lightning seleciona o Os 512 mais relevantes Entradas KV compactadas por consulta, além de uma janela deslizante de 128 tokens para que o contexto local nunca seja perdido.

Atenção Altamente Comprimida (HCA)

Aplica uma taxa de compressão muito mais agressiva de 128Em seguida, realiza uma atenção densa sobre essa representação comprimida, fornecendo ao modelo uma visão global eficiente de tokens distantes em cada camada. As camadas CSA e HCA são intercaladas ao longo de todo o processo.

Hiperconexões com restrições de variedade

Fortalece as conexões residuais convencionais para aumentar a estabilidade da propagação do sinal entre as camadas, enquanto preservando a expressividade do modelo — um fator fundamental para manter a qualidade em altas taxas de compressão.

Roteamento MoE + Otimizador de Múons

As três primeiras camadas MoE usam roteamento Hash; as camadas restantes usam roteamento DeepSeekMoE aprendido. Previsão de múltiplos tokens Habilitado na profundidade 1. Otimizador de múons durante o treinamento, juntamente com precisão mista FP4/FP8 para baixo custo de treinamento.

Dados de treinamento

Pré-treinado em mais de 32 trilhões de tokens diversos e de alta qualidadeO pós-treinamento utilizou um pipeline de duas etapas: cultivo independente de especialistas específicos do domínio via SFT e RL com GRPO, seguido por consolidação unificada do modelo via destilação on-policy.

// 03 — MODOS DE RACIOCÍNIO

Modos de Raciocínio

O V4 Flash suporta três modos de esforço de raciocínio configuráveis — controle direto sobre a relação entre latência e qualidade sem precisar trocar de modelo completamente.

Não-pensamento

Nenhuma cadeia de raciocínio gerada. Latência mais rápida, menor número de tokens. Ideal para consultas simples, bate-papo e etapas de recuperação de RAG (Raciocínio Aleatório-Aleatório).

Pensamento

Fluxograma interno de pensamento antes da resposta. Modo padrão para codificação, raciocínio estruturado e tarefas agentivas de múltiplas etapas.

Pense Max

Orçamento de raciocínio ampliado. Aproxima-se da qualidade do V4 Pro em matemática complexa, STEM e demonstrações formais. Contexto recomendado: mais de 384 mil tokens.

// 04 — REFERÊNCIAS

Desempenho de referência

No Índice de Inteligência Artificial Analítica v4.0 (que abrange GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench e outros), o Flash V4 no modo de raciocínio apresenta pontuações 47 versus uma mediana de 28 na categoria peso livre.

REFERÊNCIA

PONTUAÇÃO

STATUS

Índice de Inteligência (AA v4.0)

47 / 100

+19 em relação à mediana

Putnam-200 Pass@8

81,0

Nível superior

HMMT fevereiro de 2026

95,2

Líder

IMOAnswerBench

89,8

Líder

Velocidade de saída

84 t/s

1,6× mediana

TTFT

1,00s

2 vezes mais rápido

// 05 — CASOS DE USO

Casos de uso

O V4 Flash se posiciona como a opção padrão com melhor custo-benefício para a maioria dos cenários de servidor — o modelo que você escolhe primeiro, a menos que a inteligência de ponta máxima seja explicitamente exigida.

Assistência de Codificação Compreensão de repositórios de contexto extenso, revisão de diferenças e preenchimento automático com alta capacidade de processamento. O contexto de 1 milhão de tokens absorve bases de código médias inteiras em uma única chamada.
Gasodutos RAG Síntese de recuperação de alto volume, onde os acertos de cache reduzem os custos de entrada a frações de centavo. Ideal para cargas de trabalho de produção de perguntas e respostas com grande volume de documentos.
Agente Loops de chamada de ferramentas em várias etapas. Apresenta desempenho equivalente ao V4 Pro em tarefas simples de agentes, com custo por token 3 a 4 vezes menor.
Processamento de Documentos O contexto de 1 milhão de tokens absorve contratos inteiros, bases de código ou arquivos de relatórios em uma única chamada — sem necessidade de fragmentação.
Matemática / STEM O modo Think Max produz raciocínio formal de ponta por uma fração do preço do Pro. 95,2 no HMMT em fevereiro de 2026.
Chat e suporte O TTFT inferior a um segundo e a taxa de transferência de 84 t/s mantêm a latência de conversação imperceptível em aplicações em tempo real.

// 06 — COMPARAÇÕES

Como se compara

vs.

DeepSeek V4 Pro

O Pro possui 1,6T de parâmetros ativos no total / 49B. O flash tem aproximadamente 3 a 4 vezes mais barato e mais rápido, com raciocínio que se aproxima bastante da qualidade Pro. Tarefas simples de agentes: paridade. Cadeias de conhecimento intensivo: liderança Pro.

vs.

DeepSeek V3.2

O Flash usa 10% dos FLOPs da versão 3.2 e 7% do seu cache KV em um contexto de 1 milhão de tokens — um salto geracional em eficiência — ao mesmo tempo que introduz atenção híbrida e modos de raciocínio configuráveis que faltavam na versão 3.2.

vs.

GPT-5.4 Nano

O V4 Flash é atualmente o mais barato entre os modelos pequenos e capazes, oferecendo um preço inferior ao do GPT-5.4 Nano, ao mesmo tempo que disponibiliza pesos abertos e contexto de 1 milhão de tokens, algo que a maioria dos modelos da classe nano não oferece.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Contate-nos

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos

Contate-nos

Mais de 300 modelos de IA para OpenClaw e agentes de IA

DeepSeek Flash V4

O que é o DeepSeek V4 Flash?

Arquitetura e principais inovações

Modos de Raciocínio

Desempenho de referência

Casos de uso

Como se compara

Playground de IA

Mais de 300 modelos de IA para OpenClaw e Agentes de IA

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA