qwen-bg
max-ico04
Dans
0,182
Dehors
0,364
max-ico02
Chat
max-ico03
Actif
Flash DeepSeek V4
Dans le contexte d'un million de jetons, V4 Flash n'atteint que 10 % des FLOPs d'un seul jeton et 7 % de la taille du cache KV par rapport à DeepSeek-V3.2 — un gain d'efficacité spectaculaire qui rend la gestion de contextes très longs réellement économique.
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Plus de 300 modèles d'IA pour OpenClaw et agents IA

qwenmax-bg
deepseek-copy (1).svg
Flash DeepSeek V4

DeepSeek/Modèles/Flash V4

DeepSeek Flash V4

Un modèle Mixture-of-Experts à 284 milliards de paramètres, conçu pour une inférence rapide et abordable sans compromettre la profondeur du raisonnement. Treize milliards de paramètres actifs par itération. Un million d'éléments de contexte.

Aperçu du 24 avril 2026 Poids libres Architecture du ministère de l'Éducation Contexte 1M
284B
Paramètres totaux
Architecture du ministère de l'Éducation
13B
Actif par Pass
par passe avant
1M
Fenêtre contextuelle
jetons
84 t/s
Vitesse de sortie
contre une médiane de 52
1,00 s
TTFT
contre une médiane de 2,03 s
47
Indice de renseignement
poids moyen en open : 28
// 01 — APERÇU

Qu'est-ce que DeepSeek V4 Flash ?

Le DeepSeek V4 Flash est le modèle axé sur l'efficacité de la quatrième génération de la gamme DeepSeek. Il complète le V4 Pro : tandis que le Pro privilégie l'intelligence maximale, le Flash privilégie… débit, latence et coût par jeton sans pour autant compromettre sérieusement la qualité.

Le modèle utilise une conception de type « mélange d'experts » clairsemée : bien qu'il comporte 284 milliards de paramètres au total, seuls 13 milliards sont actifs Lors de chaque appel d'inférence, cela se traduit directement par une réduction des besoins de calcul et des coûts, tout en conservant des résultats plus précis qu'avec un modèle dense de 13 milliards d'éléments.

Tarification de l'API (par million de jetons)
Entrée (échec du cache)
0,18 $
par million de jetons
Entrée (cache atteint)
0,04 $
par million de jetons
Sortir
0,36 $
par million de jetons
// 02 — ARCHITECTURE

Architecture et innovations clés

Plusieurs choix architecturaux distinguent V4 Flash des versions précédentes de DeepSeek et du domaine open-source en général.

Attention parcimonieuse compressée (CSA)
Compresse les caches KV selon la dimension de séquence (taux 4 en Flash), puis applique l'attention clairsemée DeepSeek. Un indexeur Lightning sélectionne le Les 512 plus pertinents Entrées KV compressées par requête, plus une fenêtre glissante de 128 jetons pour que le contexte local ne soit jamais perdu.
Attention fortement comprimée (HCA)
Applique un taux de compression beaucoup plus agressif 128Le modèle effectue ensuite un traitement d'attention dense sur cette représentation compressée, ce qui lui confère une vue globale et économique des jetons distants à chaque couche. Les couches CSA et HCA sont entrelacées tout au long du processus.
Hyperconnexions à contraintes de variété
Renforce les connexions résiduelles conventionnelles pour améliorer la stabilité de la propagation du signal à travers les couches, tandis que préserver l'expressivité du modèle — un facteur clé pour maintenir la qualité à des taux de compression élevés.
Routage MoE + Optimiseur de muons
Les 3 premières couches MoE utilisent le routage Hash ; les couches restantes utilisent le routage DeepSeekMoE appris. Prédiction multi-jetons Activé à la profondeur 1. Optimiseur de muons pendant l'entraînement avec précision mixte FP4/FP8 pour un faible coût d'entraînement.
Données d'entraînement

Pré-formé sur plus de 32 billions de jetons diversifiés et de haute qualité. La phase de post-formation a utilisé un pipeline en deux étapes : la formation indépendante d’experts spécifiques au domaine via SFT et RL avec GRPO, suivie d’une consolidation unifiée du modèle via une distillation sur la politique.

// 03 — MODES DE RAISONNEMENT

Modes de raisonnement

V4 Flash prend en charge trois modes d'effort de raisonnement configurables — contrôle direct du compromis latence/qualité sans changer complètement de modèle.

Non-pensée
Aucune chaîne de raisonnement générée. Latence minimale, nombre de jetons réduit. Idéal pour les requêtes simples, le chat et la récupération de données RAG.
Pensée
Démarche de réflexion interne avant de répondre. Mode standard pour le codage, le raisonnement structuré et les tâches multi-étapes impliquant des agents.
Pensez Max
Budget de raisonnement étendu. Qualité comparable à celle de la version 4 Pro pour les mathématiques complexes, les sciences, les technologies, l'ingénierie et les mathématiques (STEM) et les démonstrations formelles. Contexte recommandé : plus de 384 000 jetons.
// 04 — MARQUES DE RÉFÉRENCE

Performances de référence

Sur l'indice d'intelligence d'analyse artificielle v4.0 (qui couvre GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench et autres), V4 Flash obtient des scores en mode raisonnement 47 contre une médiane de 28 pour les catégories de poids ouvertes.

RÉFÉRENCE
SCORE
STATUT
Indice de renseignement (AA v4.0)
47/100
+19 par rapport à la médiane
Putnam-200 Pass@8
81.0
Niveau supérieur
HMMT 2026 février
95,2
Chef
IMOAnswerBench
89,8
Chef
Vitesse de sortie
84 t/s
1,6× médiane
TTFT
1,00 s
2 fois plus rapide
// 05 — CAS D'UTILISATION

Cas d'utilisation

La version V4 Flash est positionnée comme la solution par défaut économique pour la plupart des scénarios de service — le modèle vers lequel on se tourne en premier lieu, sauf si une intelligence de pointe maximale est explicitement requise.

  • Assistance au codage Compréhension des dépôts à contexte long, revue des différences et saisie semi-automatique à haut débit. Un contexte d'un million de jetons permet d'absorber des bases de code entières de taille moyenne en un seul appel.
  • Pipelines RAG Synthèse de recherche à haut volume où les accès au cache réduisent les coûts d'entrée à des fractions de centime. Idéal pour les charges de travail de production de questions-réponses impliquant un grand nombre de documents.
  • Agentic Boucles d'appel d'outils en plusieurs étapes. Performances équivalentes à celles de V4 Pro pour les tâches d'agent simples, à un coût par jeton 3 à 4 fois inférieur.
  • Traitement des documents Le contexte de 1 million de jetons absorbe des contrats entiers, des bases de code ou des archives de rapports en un seul appel — aucun découpage n'est nécessaire.
  • Mathématiques / STEM Le mode Think Max offre un raisonnement formel de pointe à un prix bien inférieur à celui du mode Pro. Note : 95,2 sur HMMT (février 2026).
  • Chat et assistance Un TTFT inférieur à la seconde et un débit de 84 t/s permettent de maintenir une latence conversationnelle imperceptible dans les applications en temps réel.
// 06 — COMPARAISONS

Comparaison

contre.
DeepSeek V4 Pro
La version Pro dispose de 1,6 To de mémoire totale / 49 milliards de paramètres actifs. La mémoire flash est d'environ 3 à 4 fois moins cher et plus rapide, avec un raisonnement d'une qualité proche de celle des professionnels. Tâches simples des agents : équivalent. Chaînes complexes : performances supérieures à celles des professionnels.
contre.
DeepSeek V3.2
Flash utilise 10 % des FLOP de V3.2 et 7 % de son cache KV dans un contexte de 1 million de jetons — un bond générationnel en matière d'efficacité — tout en introduisant une attention hybride et des modes de raisonnement configurables qui manquaient à la version 3.2.
contre.
Nano GPT-5.4
V4 Flash est actuellement le le moins cher parmi les petits modèles performants, en proposant un prix inférieur à celui de GPT-5.4 Nano tout en offrant des poids ouverts et un contexte de 1 million de jetons que la plupart des modèles de classe nano ne fournissent pas.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.
Contactez-nous
api-droite-1
modèle-bg02-1

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts