qwen-bg
max-ico04
In
0,182
Aus
0,364
max-ico02
Chat
max-ico03
Aktiv
DeepSeek V4 Flash
Im Kontext von 1 Million Token erreicht V4 Flash nur 10 % der FLOPs eines einzelnen Tokens und 7 % der KV-Cache-Größe im Vergleich zu DeepSeek-V3.2 – ein enormer Effizienzsprung, der das Bedienen sehr langer Kontexte tatsächlich wirtschaftlich macht.
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

qwenmax-bg
deepseek-copy (1).svg
DeepSeek V4 Flash

DeepSeek/Modelle/V4 Flash

DeepSeek V4 Flash

Ein Mixture-of-Experts-Modell mit 284 Milliarden Parametern, entwickelt für schnelle und kostengünstige Inferenz ohne Einbußen bei der Analysetiefe. Dreizehn Milliarden Parameter sind pro Vorwärtsdurchlauf aktiv. Eine Million Kontext-Tokens.

Vorschau am 24. April 2026 Offene Gewichtsklassen Architektur des Bildungsministeriums 1M Kontext
284B
Gesamtparameter
MoE-Architektur
13B
Aktiv pro Pass
pro Vorwärtspass
1 Million
Kontextfenster
Token
84 t/s
Ausgangsgeschwindigkeit
vs. 52 Median
1,00 s
TTFT
vs. 2,03s Median
47
Intelligenzindex
Durchschnittsgewicht in der offenen Klasse: 28
// 01 — ÜBERSICHT

Was ist DeepSeek V4 Flash?

Der DeepSeek V4 Flash ist das leistungsstärkste Mitglied der vierten Generation der DeepSeek-Modellfamilie. Er ergänzt den V4 Pro als weitere Option – während der Pro auf maximale Intelligenz optimiert ist, optimiert der Flash für … Durchsatz, Latenz und Kosten pro Token ohne dabei dramatisch an Qualität einzubüßen.

Das Modell verwendet ein spärliches Mixture-of-Experts-Design: Es umfasst zwar insgesamt 284 Milliarden Parameter, aber nur 13 Milliarden sind aktiv während jedes einzelnen Inferenzaufrufs. Das bedeutet direkt einen geringeren Rechenaufwand und niedrigere Kosten bei gleichzeitig präziseren Ergebnissen, als es ein dichtes 13B-Modell allein erreichen könnte.

API-Preise (pro 1 Million Token)
Eingabe (Cache-Fehler)
0,18 $
pro 1 Million Token
Eingabe (Cache-Treffer)
0,04 $
pro 1 Million Token
Ausgabe
0,36 $
pro 1 Million Token
// 02 — ARCHITEKTUR

Architektur und wichtige Innovationen

Mehrere architektonische Entscheidungen unterscheiden V4 Flash von früheren DeepSeek-Versionen und vom breiteren Open-Source-Bereich.

Komprimierte spärliche Aufmerksamkeit (CSA)
Komprimiert KV-Caches entlang der Sequenzdimension (Rate 4 in Flash) und wendet anschließend DeepSeek Sparse Attention an. Ein Lightning-Indexer wählt die Top 512 relevanteste Komprimierte KV-Einträge pro Abfrage sowie ein gleitendes Fenster von 128 Token, damit der lokale Kontext nie verloren geht.
Stark komprimierte Aufmerksamkeit (HCA)
Wendet eine deutlich aggressivere Kompressionsrate an 128Anschließend wird eine dichte Aufmerksamkeitsverarbeitung über diese komprimierte Repräsentation durchgeführt – wodurch das Modell einen kostengünstigen globalen Überblick über weit entfernte Token in jeder Schicht erhält. CSA- und HCA-Schichten sind dabei durchgehend verschachtelt.
Mannigfaltigkeitsbeschränkte Hyperverbindungen
Verstärkt herkömmliche Restverbindungen, um die Stabilität der Signalausbreitung über die Schichten hinweg zu verbessern, während Erhaltung der Ausdrucksstärke des Modells — ein Schlüsselfaktor für die Aufrechterhaltung der Qualität bei hohen Kompressionsverhältnissen.
MoE-Routing + Muon-Optimierer
Die ersten 3 MoE-Schichten verwenden Hash-Routing; die übrigen Schichten verwenden gelerntes DeepSeekMoE-Routing. Multi-Token-Vorhersage Aktiviert in Tiefe 1. Muon-Optimierer während des Trainings zusammen mit FP4/FP8 gemischter Präzision für niedrige Trainingskosten.
Trainingsdaten

Vorgeschult in mehr als 32 Billionen diverse, hochwertige TokenDie Nachbereitung des Trainings erfolgte in zwei Schritten: Zunächst wurden domänenspezifische Experten mittels SFT und RL mit GRPO unabhängig voneinander ausgebildet, anschließend erfolgte die Konsolidierung des einheitlichen Modells mittels On-Policy-Destillation.

// 03 — DENKSATZMODI

Denkmodi

V4 Flash unterstützt drei konfigurierbare Reasoning-Effort-Modi – direkte Kontrolle über den Kompromiss zwischen Latenz und Qualität, ohne das Modell komplett wechseln zu müssen.

Nicht-Denken
Es wird keine Argumentationskette generiert. Geringste Latenz, niedrigste Tokenanzahl. Optimal für einfache Abfragen, Chat und RAG-Abrufschritte.
Denken
Interne Gedankenkette vor der Beantwortung. Standardmodus für Codierung, strukturiertes Schließen und mehrstufige agentenbasierte Aufgaben.
Denk an Max
Erweitertes Budget für logisches Denken. Erreicht nahezu die Qualität von V4 Pro bei komplexer Mathematik, MINT-Fächern und formalen Beweisen. Empfohlener Kontext: 384.000+ Tokens.
// 04 — BENCHMARKS

Benchmark-Leistung

Im Artificial Analysis Intelligence Index v4.0 (der GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench und andere umfasst) erzielt V4 Flash im Reasoning-Modus folgende Ergebnisse: 47 gegenüber einem Medianwert von 28 bei offenem GewichtDie

BENCHMARK
PUNKTZAHL
STATUS
Intelligenzindex (AA v4.0)
47 / 100
+19 vs Median
Putnam-200 Pass@8
81,0
Spitzenklasse
HMMT 2026 Feb
95,2
Führer
IMOAnswerBench
89,8
Führer
Ausgangsgeschwindigkeit
84 t/s
1,6× Median
TTFT
1,00 s
2× schneller
// 05 — ANWENDUNGSFÄLLE

Anwendungsfälle

V4 Flash positioniert sich als kostengünstiger Standard für die meisten Server-Szenarien – das Modell, zu dem man zuerst greift, es sei denn, maximale Spitzentechnologie ist ausdrücklich erforderlich.

  • Coding Assist Langkontextbasiertes Repository-Verstehen, Diff-Überprüfung und Autovervollständigung bei hohem Durchsatz. Ein Kontext mit 1 Million Tokens verarbeitet ganze mittelgroße Codebasen in einem einzigen Aufruf.
  • RAG-Pipelines Synthese von Abfragen in großem Umfang, bei der Cache-Treffer die Eingabekosten auf Bruchteile eines Cents reduzieren. Ideal für dokumentenintensive Q&A-Produktionsworkloads.
  • Agentic Mehrstufige Tool-Aufrufschleifen. Erbringt bei einfachen Agentenaufgaben die gleiche Leistung wie V4 Pro, jedoch zu 3- bis 4-mal geringeren Kosten pro Token.
  • Dokumentenverarbeitung Der 1M-Token-Kontext absorbiert ganze Verträge, Codebasen oder Berichtsarchive in einem einzigen Aufruf – eine Aufteilung in kleinere Teile ist nicht erforderlich.
  • Mathematik / MINT Der Think Max-Modus ermöglicht formales Denken auf Spitzenniveau zu einem Bruchteil des Preises der Pro-Version. 95,2 auf HMMT 2026 Feb.
  • Chat & Support Dank einer TTFT im Subsekundenbereich und eines Durchsatzes von 84 t/s ist die Gesprächslatenz in Echtzeitanwendungen nicht wahrnehmbar.
// 06 — VERGLEICHE

Wie es sich vergleicht

vs.
DeepSeek V4 Pro
Pro speichert insgesamt 1,6 TB / 49 B aktive Parameter. Der Flash-Speicher ist ungefähr 3–4-mal günstiger und schnellerMit Argumentationsgrundlagen, die nahezu Profi-Niveau erreichen. Einfache Agentenaufgaben: Parität. Wissensintensive Aufgabenketten: Profi-Führung.
vs.
DeepSeek V3.2
Flash verwendet 10 % der FLOPs von V3.2 und 7 % seines KV-Caches im Kontext von 1 Million Token – ein Effizienzsprung im Vergleich zur Vorgängergeneration –, während gleichzeitig hybride Aufmerksamkeits- und konfigurierbare Schlussfolgerungsmodi eingeführt wurden, die in V3.2 fehlten.
vs.
GPT-5.4 Nano
V4 Flash ist derzeit der das günstigste unter den kleinen, leistungsfähigen Modellenund unterbietet GPT-5.4 Nano beim Preis, während gleichzeitig offene Gewichte und ein Kontext von 1 Million Token geboten werden, den die meisten Nano-Klasse-Modelle nicht bieten.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.
Kontaktieren Sie uns
api-right-1
Modell-BG02-1

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten