



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-v4-flash',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

DeepSeek V4 Flash
Ein Mixture-of-Experts-Modell mit 284 Milliarden Parametern, entwickelt für schnelle und kostengünstige Inferenz ohne Einbußen bei der Analysetiefe. Dreizehn Milliarden Parameter sind pro Vorwärtsdurchlauf aktiv. Eine Million Kontext-Tokens.
Was ist DeepSeek V4 Flash?
Der DeepSeek V4 Flash ist das leistungsstärkste Mitglied der vierten Generation der DeepSeek-Modellfamilie. Er ergänzt den V4 Pro als weitere Option – während der Pro auf maximale Intelligenz optimiert ist, optimiert der Flash für … Durchsatz, Latenz und Kosten pro Token ohne dabei dramatisch an Qualität einzubüßen.
Das Modell verwendet ein spärliches Mixture-of-Experts-Design: Es umfasst zwar insgesamt 284 Milliarden Parameter, aber nur 13 Milliarden sind aktiv während jedes einzelnen Inferenzaufrufs. Das bedeutet direkt einen geringeren Rechenaufwand und niedrigere Kosten bei gleichzeitig präziseren Ergebnissen, als es ein dichtes 13B-Modell allein erreichen könnte.
Architektur und wichtige Innovationen
Mehrere architektonische Entscheidungen unterscheiden V4 Flash von früheren DeepSeek-Versionen und vom breiteren Open-Source-Bereich.
Vorgeschult in mehr als 32 Billionen diverse, hochwertige TokenDie Nachbereitung des Trainings erfolgte in zwei Schritten: Zunächst wurden domänenspezifische Experten mittels SFT und RL mit GRPO unabhängig voneinander ausgebildet, anschließend erfolgte die Konsolidierung des einheitlichen Modells mittels On-Policy-Destillation.
Denkmodi
V4 Flash unterstützt drei konfigurierbare Reasoning-Effort-Modi – direkte Kontrolle über den Kompromiss zwischen Latenz und Qualität, ohne das Modell komplett wechseln zu müssen.
Benchmark-Leistung
Im Artificial Analysis Intelligence Index v4.0 (der GDPval-AA, GPQA Diamond, HLE, IFBench, SciCode, Terminal-Bench und andere umfasst) erzielt V4 Flash im Reasoning-Modus folgende Ergebnisse: 47 gegenüber einem Medianwert von 28 bei offenem GewichtDie
Anwendungsfälle
V4 Flash positioniert sich als kostengünstiger Standard für die meisten Server-Szenarien – das Modell, zu dem man zuerst greift, es sei denn, maximale Spitzentechnologie ist ausdrücklich erforderlich.
- Coding Assist Langkontextbasiertes Repository-Verstehen, Diff-Überprüfung und Autovervollständigung bei hohem Durchsatz. Ein Kontext mit 1 Million Tokens verarbeitet ganze mittelgroße Codebasen in einem einzigen Aufruf.
- RAG-Pipelines Synthese von Abfragen in großem Umfang, bei der Cache-Treffer die Eingabekosten auf Bruchteile eines Cents reduzieren. Ideal für dokumentenintensive Q&A-Produktionsworkloads.
- Agentic Mehrstufige Tool-Aufrufschleifen. Erbringt bei einfachen Agentenaufgaben die gleiche Leistung wie V4 Pro, jedoch zu 3- bis 4-mal geringeren Kosten pro Token.
- Dokumentenverarbeitung Der 1M-Token-Kontext absorbiert ganze Verträge, Codebasen oder Berichtsarchive in einem einzigen Aufruf – eine Aufteilung in kleinere Teile ist nicht erforderlich.
- Mathematik / MINT Der Think Max-Modus ermöglicht formales Denken auf Spitzenniveau zu einem Bruchteil des Preises der Pro-Version. 95,2 auf HMMT 2026 Feb.
- Chat & Support Dank einer TTFT im Subsekundenbereich und eines Durchsatzes von 84 t/s ist die Gesprächslatenz in Echtzeitanwendungen nicht wahrnehmbar.
Wie es sich vergleicht
KI-Spielplatz



Einloggen