0,182

Aus

0,364

Chat

Aktiv

DeepSeek V4 Flash

Im Kontext von 1 Million Token erreicht V4 Flash nur 10 % der FLOPs eines einzelnen Tokens und 7 % der KV-Cache-Größe im Vergleich zu DeepSeek-V3.2 – ein enormer Effizienzsprung, der das Bedienen sehr langer Kontexte tatsächlich wirtschaftlich macht.

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Kontaktieren Sie uns Modelle entdecken

DeepSeek V4 Flash

Ein Mixture-of-Experts-Modell mit 284 Milliarden Parametern, entwickelt für schnelle und kostengünstige Inferenz ohne Einbußen bei der Analysetiefe. Dreizehn Milliarden Parameter sind pro Vorwärtsdurchlauf aktiv. Eine Million Kontext-Tokens.

Vorschau am 24. April 2026 Offene Gewichtsklassen Architektur des Bildungsministeriums 1M Kontext

284B

Gesamtparameter

MoE-Architektur

13B

Aktiv pro Pass

pro Vorwärtspass

1 Million

Kontextfenster

Token

84 t/s

Ausgangsgeschwindigkeit

vs. 52 Median

1,00 s

TTFT

vs. 2,03s Median

Intelligenzindex

Durchschnittsgewicht in der offenen Klasse: 28

// 01 — ÜBERSICHT

Was ist DeepSeek V4 Flash?

Der DeepSeek V4 Flash ist das leistungsstärkste Mitglied der vierten Generation der DeepSeek-Modellfamilie. Er ergänzt den V4 Pro als weitere Option – während der Pro auf maximale Intelligenz optimiert ist, optimiert der Flash für … Durchsatz, Latenz und Kosten pro Token ohne dabei dramatisch an Qualität einzubüßen.

Das Modell verwendet ein spärliches Mixture-of-Experts-Design: Es umfasst zwar insgesamt 284 Milliarden Parameter, aber nur 13 Milliarden sind aktiv während jedes einzelnen Inferenzaufrufs. Das bedeutet direkt einen geringeren Rechenaufwand und niedrigere Kosten bei gleichzeitig präziseren Ergebnissen, als es ein dichtes 13B-Modell allein erreichen könnte.

API-Preise (pro 1 Million Token)

Eingabe (Cache-Fehler)

0,18 $

pro 1 Million Token

Eingabe (Cache-Treffer)

0,04 $

pro 1 Million Token

Ausgabe

0,36 $

pro 1 Million Token

// 02 — ARCHITEKTUR

Architektur und wichtige Innovationen

Mehrere architektonische Entscheidungen unterscheiden V4 Flash von früheren DeepSeek-Versionen und vom breiteren Open-Source-Bereich.

Komprimierte spärliche Aufmerksamkeit (CSA)

Komprimiert KV-Caches entlang der Sequenzdimension (Rate 4 in Flash) und wendet anschließend DeepSeek Sparse Attention an. Ein Lightning-Indexer wählt die Top 512 relevanteste Komprimierte KV-Einträge pro Abfrage sowie ein gleitendes Fenster von 128 Token, damit der lokale Kontext nie verloren geht.

Stark komprimierte Aufmerksamkeit (HCA)

Wendet eine deutlich aggressivere Kompressionsrate an 128Anschließend wird eine dichte Aufmerksamkeitsverarbeitung über diese komprimierte Repräsentation durchgeführt – wodurch das Modell einen kostengünstigen globalen Überblick über weit entfernte Token in jeder Schicht erhält. CSA- und HCA-Schichten sind dabei durchgehend verschachtelt.

Mannigfaltigkeitsbeschränkte Hyperverbindungen

Verstärkt herkömmliche Restverbindungen, um die Stabilität der Signalausbreitung über die Schichten hinweg zu verbessern, während Erhaltung der Ausdrucksstärke des Modells — ein Schlüsselfaktor für die Aufrechterhaltung der Qualität bei hohen Kompressionsverhältnissen.

MoE-Routing + Muon-Optimierer

Die ersten 3 MoE-Schichten verwenden Hash-Routing; die übrigen Schichten verwenden gelerntes DeepSeekMoE-Routing. Multi-Token-Vorhersage Aktiviert in Tiefe 1. Muon-Optimierer während des Trainings zusammen mit FP4/FP8 gemischter Präzision für niedrige Trainingskosten.

Trainingsdaten

Vorgeschult in mehr als 32 Billionen diverse, hochwertige TokenDie Nachbereitung des Trainings erfolgte in zwei Schritten: Zunächst wurden domänenspezifische Experten mittels SFT und RL mit GRPO unabhängig voneinander ausgebildet, anschließend erfolgte die Konsolidierung des einheitlichen Modells mittels On-Policy-Destillation.

// 03 — DENKSATZMODI

Denkmodi

V4 Flash unterstützt drei konfigurierbare Reasoning-Effort-Modi – direkte Kontrolle über den Kompromiss zwischen Latenz und Qualität, ohne das Modell komplett wechseln zu müssen.

Nicht-Denken

Es wird keine Argumentationskette generiert. Geringste Latenz, niedrigste Tokenanzahl. Optimal für einfache Abfragen, Chat und RAG-Abrufschritte.

Denken

Interne Gedankenkette vor der Beantwortung. Standardmodus für Codierung, strukturiertes Schließen und mehrstufige agentenbasierte Aufgaben.

Denk an Max

Erweitertes Budget für logisches Denken. Erreicht nahezu die Qualität von V4 Pro bei komplexer Mathematik, MINT-Fächern und formalen Beweisen. Empfohlener Kontext: 384.000+ Tokens.

// 04 — BENCHMARKS

Benchmark-Leistung

Im Artificial Analysis Intelligence Index v4.0 (der GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench und andere umfasst) erzielt V4 Flash im Reasoning-Modus folgende Ergebnisse: 47 gegenüber einem Medianwert von 28 bei offenem GewichtDie

BENCHMARK

PUNKTZAHL

STATUS

Intelligenzindex (AA v4.0)

47 / 100

+19 vs Median

Putnam-200 Pass@8

81,0

Spitzenklasse

HMMT 2026 Feb

95,2

Führer

IMOAnswerBench

89,8

Führer

Ausgangsgeschwindigkeit

84 t/s

1,6× Median

TTFT

1,00 s

2× schneller

// 05 — ANWENDUNGSFÄLLE

Anwendungsfälle

V4 Flash positioniert sich als kostengünstiger Standard für die meisten Server-Szenarien – das Modell, zu dem man zuerst greift, es sei denn, maximale Spitzentechnologie ist ausdrücklich erforderlich.

Coding Assist Langkontextbasiertes Repository-Verstehen, Diff-Überprüfung und Autovervollständigung bei hohem Durchsatz. Ein Kontext mit 1 Million Tokens verarbeitet ganze mittelgroße Codebasen in einem einzigen Aufruf.
RAG-Pipelines Synthese von Abfragen in großem Umfang, bei der Cache-Treffer die Eingabekosten auf Bruchteile eines Cents reduzieren. Ideal für dokumentenintensive Q&A-Produktionsworkloads.
Agentic Mehrstufige Tool-Aufrufschleifen. Erbringt bei einfachen Agentenaufgaben die gleiche Leistung wie V4 Pro, jedoch zu 3- bis 4-mal geringeren Kosten pro Token.
Dokumentenverarbeitung Der 1M-Token-Kontext absorbiert ganze Verträge, Codebasen oder Berichtsarchive in einem einzigen Aufruf – eine Aufteilung in kleinere Teile ist nicht erforderlich.
Mathematik / MINT Der Think Max-Modus ermöglicht formales Denken auf Spitzenniveau zu einem Bruchteil des Preises der Pro-Version. 95,2 auf HMMT 2026 Feb.
Chat & Support Dank einer TTFT im Subsekundenbereich und eines Durchsatzes von 84 t/s ist die Gesprächslatenz in Echtzeitanwendungen nicht wahrnehmbar.

// 06 — VERGLEICHE

Wie es sich vergleicht

vs.

DeepSeek V4 Pro

Pro speichert insgesamt 1,6 TB / 49 B aktive Parameter. Der Flash-Speicher ist ungefähr 3–4-mal günstiger und schnellerMit Argumentationsgrundlagen, die nahezu Profi-Niveau erreichen. Einfache Agentenaufgaben: Parität. Wissensintensive Aufgabenketten: Profi-Führung.

vs.

DeepSeek V3.2

Flash verwendet 10 % der FLOPs von V3.2 und 7 % seines KV-Caches im Kontext von 1 Million Token – ein Effizienzsprung im Vergleich zur Vorgängergeneration –, während gleichzeitig hybride Aufmerksamkeits- und konfigurierbare Schlussfolgerungsmodi eingeführt wurden, die in V3.2 fehlten.

vs.

GPT-5.4 Nano

V4 Flash ist derzeit der das günstigste unter den kleinen, leistungsfähigen Modellenund unterbietet GPT-5.4 Nano beim Preis, während gleichzeitig offene Gewichte und ein Kontext von 1 Million Token geboten werden, den die meisten Nano-Klasse-Modelle nicht bieten.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kontaktieren Sie uns

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten

Kontaktieren Sie uns

Über 300 KI-Modelle für OpenClaw & KI-Agenten

DeepSeek V4 Flash

Was ist DeepSeek V4 Flash?

Architektur und wichtige Innovationen

Denkmodi

Benchmark-Leistung

Anwendungsfälle

Wie es sich vergleicht

KI-Spielplatz

Mehr als 300 KI-Modelle für OpenClaw & KI-Agenten

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten