



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-non-thinking-v3.2-exp',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-non-thinking-v3.2-exp",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Produktdetails
Modellübersicht
DeepSeek-V3.2-Exp Non-Thinking, das im September 2025 eingeführt wurde, ist ein experimentelles Transformer-basiertes großes SprachmodellEntwickelt als Weiterentwicklung von DeepSeek V3.1-Terminus, führt es die innovative DeepSeek Sparse Attention (DSA) Dieser Mechanismus ermöglicht ein effizientes und skalierbares Verständnis des Langzeitkontexts und liefert schnellere und kostengünstigere Schlussfolgerungen durch die selektive Berücksichtigung wesentlicher Token.
Technische Spezifikationen
- ⚙️ Modellgeneration: Experimentelle Zwischenentwicklung von DeepSeek V3.1
- 🧠 Architekturtyp: Transformer mit feinkörniger, spärlicher Aufmerksamkeit (DeepSeek Sparse Attention - DSA)
- 📏 Parameterausrichtung: Schulung ausgerichtet auf V3.1-Terminus für Benchmarking-Validierung
- 📖 Kontextlänge: Unterstützt bis zu 128.000 Token, geeignet für die Verarbeitung mehrerer Dokumente und langer Texte
- 📤 Maximale Anzahl an Ausgabetokens: Standardmäßig 4.000, unterstützt bis zu 8.000 Token pro Antwort
Leistungsbenchmarks
Die Leistung bleibt in verschiedenen Bereichen wie Schlussfolgerung, Codierung und realen agentenbasierten Aufgaben auf dem Niveau von V3.1-Terminus oder ist sogar besser, während gleichzeitig erhebliche Effizienzgewinne erzielt werden.
- ✅ GPQA-Diamant (Frage-Antwort-System): Ergebnisse 79,9etwas unterhalb von V3.1 (80.7)
- 💻 LiveCodeBench (Programmierung): Erreicht 74.1nahe 74,9 von V3.1
- ➕ AIME 2025 (Mathematik): Ergebnisse 89,3, übertrifft V3.1 (88.4)
- 🏆 Codeforces Programmierbenchmark: Tritt auf bei 2121besser als V3.1 (2046)
- 🛠️ BrowseComp (Agentic Tool Use): Erreicht 40.1besser als V3.1 (38.5)
Hauptmerkmale
- ✨ DeepSeek Sparse Attention (DSA): Innovativer, feinkörniger Sparse-Attention-Mechanismus, der die Berechnung nur auf die wichtigsten Token konzentriert und so den Rechen- und Speicherbedarf drastisch reduziert.
- 📚 Umfassende Kontextunterstützung: Prozesse bis zu 128.000 Token (über 300 Seiten Text), was das Verständnis längerer Dokumente und Arbeitsabläufe mit mehreren Dokumenten ermöglicht.
- 💰 Deutliche Kostenreduzierung: Die Inferenzkosten wurden um mehr als 50% im Vergleich zu DeepSeek V3.1-Terminus ist es daher für den Einsatz in großem Umfang hocheffizient.
- ⚡ Hohe Effizienz und Geschwindigkeit: Optimiert für schnelle Inferenz, bietet 2-3-fache Beschleunigung bei der Verarbeitung langer Texte im Vergleich zu früheren Versionen, ohne Einbußen bei der Ausgabequalität.
- 🏆 Gewährleistet Qualität: Erreicht oder übertrifft die Leistung von DeepSeek V3.1-Terminus in mehreren Benchmarks mit vergleichbarer Generationsqualität.
- ⚖️ Skalierbar und stabil: Optimiert für den großflächigen Einsatz mit verbessertem Speicherverbrauch und höherer Inferenzstabilität bei erweiterten Kontextlängen.
- 🚀 Nicht-Denk-Modus: Priorisiert direkte, schnelle Antworten ohne Zwischenschritte der Argumentation, perfekt für latenzempfindliche Anwendungen.
API-Preise
- Eingabetoken (CACHE-TREFFER): 0,0294 USD pro 1 Million Token
- Eingabe-Tokens (CACHE-FEHLSCHLAG): 0,294 $ pro 1 Million Token
- Ausgabetoken: 0,441 USD pro 1 Million Token
Anwendungsfälle
- 💬 Schnelle interaktive Chatbots und Assistenten: Ideal für Anwendungen, bei denen Reaktionsfähigkeit entscheidend ist.
- 📝 Zusammenfassung und Extraktion von Langdokumenten: Verarbeitet große Texte effizient und ohne zusätzlichen Erklärungsaufwand.
- 💻 Codegenerierung/-vervollständigung: Verarbeitet große Datenbestände schnell, wobei Geschwindigkeit entscheidend ist.
- 🔍 Suche und Abruf mehrerer Dokumente: Liefert Ergebnisse mit geringer Latenz über mehrere Quellen hinweg.
- 🔗 Pipeline-Integrationen: Liefert direkte JSON-Ausgaben ohne Zwischenverarbeitungsrauschen, perfekt für automatisierte Arbeitsabläufe.
Codebeispiel
Vergleich mit anderen Modellen
VS. DeepSeek V3.1-Terminus: V3.2-Exp führt die DeepSeek Sparse Attention MechanismusDadurch werden die Rechenkosten für lange Kontexte deutlich reduziert, während die Ausgabequalität nahezu identisch bleibt. Es erzielt eine vergleichbare Benchmark-Leistung, ist aber etwa 50 % günstiger und insbesondere bei großen Eingaben deutlich schneller als DeepSeek V3.1-Terminus.
VS. GPT-5: Während GPT-5 in Bezug auf das grundlegende Sprachverständnis und die Generierungsqualität in einem breiten Aufgabenspektrum führend ist, zeichnet sich DeepSeek V3.2-Exp insbesondere durch seine Fähigkeit aus, extrem lange Kontexte (bis zu …) zu verarbeiten. 128.000 Token) kostengünstiger. Die spärliche Aufmerksamkeit von DeepSeek bietet einen deutlichen Effizienzvorteil für dokumentenintensive Anwendungen und Anwendungen mit mehreren Durchläufen.
VS. LLaMA 3: LLaMA-Modelle bieten eine wettbewerbsfähige Leistung bei hoher Aufmerksamkeitsdichte, begrenzen aber typischerweise die Kontextgröße auf 32.000 Token oder wenigerDie Architektur von DeepSeek zielt auf Langzeitkontextskalierbarkeit mit spärlicher Aufmerksamkeit ab und ermöglicht so eine reibungslosere Performance bei sehr großen Dokumenten und Datensätzen, bei denen LLaMA an Leistung verlieren oder ineffizient werden kann.
Häufig gestellte Fragen
❓ Was ist DeepSeek V3.2-Exp Non-Thinking und wie unterscheidet es sich von Standardmodellen?
DeepSeek V3.2-Exp Non-Thinking ist eine spezielle Variante, die für schnelle, direkte Antworten ohne aufwendige Schlussfolgerungsketten optimiert ist. Im Gegensatz zu Standardmodellen, die mehrstufige Schlussfolgerungen ziehen, priorisiert diese Version Geschwindigkeit und Effizienz, indem sie sofortige Antworten ohne Denkprozess liefert. Dadurch eignet sie sich ideal für Anwendungen, die schnelle Reaktionen erfordern und bei denen keine komplexen Schlussfolgerungen notwendig sind.
❓ Was sind die wichtigsten Anwendungsfälle für ein nicht denkendes KI-Modell?
Zu den Hauptanwendungsfällen gehören: die Bearbeitung großer Mengen an Kundendienstanfragen, einfache Frage-Antwort-Systeme, Aufgaben der Inhaltsklassifizierung, grundlegende Informationsrecherchen, einfache Übersetzungsanfragen und alle Szenarien, in denen Geschwindigkeit und Durchsatz wichtiger sind als tiefgreifende analytische Schlussfolgerungen. Es ist besonders wertvoll für Anwendungen mit strengen Latenzanforderungen oder bei der Bearbeitung vieler gleichzeitiger Benutzeranfragen.
❓ Welche Leistungsvorteile bietet die nicht-denkende Version?
Die Variante ohne Denkprozesse bietet erhebliche Vorteile: geringere Latenzzeiten bei der Inferenz (oft 2-3x schneller), niedrigere Rechenkosten, höherer Durchsatz bei gleichzeitigen Anfragen, verbesserte Skalierbarkeit und besser vorhersagbare Antwortzeiten. Diese Vorteile ergeben sich daraus, dass der Rechenaufwand für die Generierung und Verarbeitung erweiterter Schlussfolgerungsschritte vor der Antwortbereitstellung entfällt.
❓ Welche Arten von Anfragen eignen sich nicht für nicht-denkende Modelle?
Anfragen, die komplexe Problemlösungen, mehrstufiges Denken, mathematische Beweise, logische Schlussfolgerungen, kreatives Brainstorming oder differenzierte ethische Überlegungen erfordern, eignen sich nicht für nicht-denkende Modelle. Solche Szenarien profitieren von Standardmodellen, die durch systematische Analyse in Gedankenketten logische Schlussfolgerungen ziehen und so zu präziseren und fundierteren Antworten gelangen.
❓ Wie können Entwickler zwischen denkenden und nicht-denkenden Modellvarianten wählen?
Entwickler sollten ihre Wahl anhand folgender Kriterien treffen: Anforderungen an die Antwortzeit (nicht-analytische Modelle für Anforderungen im Subsekundenbereich), Komplexität der Abfrage (analytische Modelle für analytische Aufgaben), Kostenbeschränkungen (nicht-analytische Modelle für budgetsensible Anwendungen), Ziele der Benutzerfreundlichkeit und ob die Anwendung von transparenten Entscheidungsprozessen profitiert. Viele Anwendungen nutzen einen hybriden Ansatz, indem sie einfache Abfragen an nicht-analytische Modelle weiterleiten, während analytische Modelle für komplexe Aufgaben reserviert bleiben.
KI-Spielplatz



Einloggen