



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-v4-flash',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

DeepSeek Flash V4
Un modèle Mixture-of-Experts à 284 milliards de paramètres, conçu pour une inférence rapide et abordable sans compromettre la profondeur du raisonnement. Treize milliards de paramètres actifs par itération. Un million d'éléments de contexte.
Qu'est-ce que DeepSeek V4 Flash ?
Le DeepSeek V4 Flash est le modèle axé sur l'efficacité de la quatrième génération de la gamme DeepSeek. Il complète le V4 Pro : tandis que le Pro privilégie l'intelligence maximale, le Flash privilégie… débit, latence et coût par jeton sans pour autant compromettre sérieusement la qualité.
Le modèle utilise une conception de type « mélange d'experts » clairsemée : bien qu'il comporte 284 milliards de paramètres au total, seuls 13 milliards sont actifs Lors de chaque appel d'inférence, cela se traduit directement par une réduction des besoins de calcul et des coûts, tout en conservant des résultats plus précis qu'avec un modèle dense de 13 milliards d'éléments.
Architecture et innovations clés
Plusieurs choix architecturaux distinguent V4 Flash des versions précédentes de DeepSeek et du domaine open-source en général.
Pré-formé sur plus de 32 billions de jetons diversifiés et de haute qualité. La phase de post-formation a utilisé un pipeline en deux étapes : la formation indépendante d’experts spécifiques au domaine via SFT et RL avec GRPO, suivie d’une consolidation unifiée du modèle via une distillation sur la politique.
Modes de raisonnement
V4 Flash prend en charge trois modes d'effort de raisonnement configurables — contrôle direct du compromis latence/qualité sans changer complètement de modèle.
Performances de référence
Sur l'indice d'intelligence d'analyse artificielle v4.0 (qui couvre GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench et autres), V4 Flash obtient des scores en mode raisonnement 47 contre une médiane de 28 pour les catégories de poids ouvertes.
Cas d'utilisation
La version V4 Flash est positionnée comme la solution par défaut économique pour la plupart des scénarios de service — le modèle vers lequel on se tourne en premier lieu, sauf si une intelligence de pointe maximale est explicitement requise.
- Assistance au codage Compréhension des dépôts à contexte long, revue des différences et saisie semi-automatique à haut débit. Un contexte d'un million de jetons permet d'absorber des bases de code entières de taille moyenne en un seul appel.
- Pipelines RAG Synthèse de recherche à haut volume où les accès au cache réduisent les coûts d'entrée à des fractions de centime. Idéal pour les charges de travail de production de questions-réponses impliquant un grand nombre de documents.
- Agentic Boucles d'appel d'outils en plusieurs étapes. Performances équivalentes à celles de V4 Pro pour les tâches d'agent simples, à un coût par jeton 3 à 4 fois inférieur.
- Traitement des documents Le contexte de 1 million de jetons absorbe des contrats entiers, des bases de code ou des archives de rapports en un seul appel — aucun découpage n'est nécessaire.
- Mathématiques / STEM Le mode Think Max offre un raisonnement formel de pointe à un prix bien inférieur à celui du mode Pro. Note : 95,2 sur HMMT (février 2026).
- Chat et assistance Un TTFT inférieur à la seconde et un débit de 84 t/s permettent de maintenir une latence conversationnelle imperceptible dans les applications en temps réel.
Comparaison
Terrain de jeu de l'IA



Se connecter