



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-non-thinking-v3.2-exp',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-non-thinking-v3.2-exp",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Détails du produit
Présentation du modèle
DeepSeek-V3.2-Exp Non-Thinking, lancé en septembre 2025, est un modèle de langage expérimental à grande échelle basé sur les transformateursConçu comme une évolution de DeepSeek V3.1-Terminus, il introduit des fonctionnalités innovantes. Attention clairsemée DeepSeek (DSA) Ce mécanisme permet une compréhension efficace et évolutive du contexte long, offrant une inférence plus rapide et plus rentable grâce à une attention sélective portée aux éléments essentiels.
Spécifications techniques
- ⚙️ Génération de modèles : Développement intermédiaire expérimental à partir de DeepSeek V3.1
- 🧠 Type d'architecture : Transformateur avec attention parcimonieuse à grain fin (DeepSeek Sparse Attention - DSA)
- 📏 Alignement des paramètres : Formation alignée sur la version 3.1-Terminus pour l'évaluation de la validité
- 📖 Longueur du contexte : Supporte jusqu'à 128 000 jetons, adapté au traitement de plusieurs documents et de textes longs
- 📤 Nombre maximal de jetons de sortie : 4 000 par défaut, prend en charge jusqu'à 8 000 jetons par réponse
Indicateurs de performance
Les performances restent équivalentes ou supérieures à celles de V3.1-Terminus dans de multiples domaines tels que le raisonnement, le codage et les tâches d'agents du monde réel, tout en offrant des gains d'efficacité substantiels.
- ✅ GPQA-Diamant (Réponse aux questions) : Scores 79,9, légèrement en dessous de V3.1 (80,7)
- 💻 LiveCodeBench (Programmation) : Atteint 74.1, près de 74,9 de la V3.1
- ➕ AIME 2025 (Mathématiques) : Scores 89,3, surpassant V3.1 (88,4)
- 🏆 Test de programmation Codeforces : Se produit à 2121, mieux que la version 3.1 (2046)
- 🛠️ BrowseComp (Utilisation d'outils d'agent) : Réalise 40.1, mieux que la version 3.1 (38,5)
Caractéristiques principales
- ✨ Attention clairsemée DeepSeek (DSA) : Mécanisme d'attention clairsemé et novateur à grain fin concentrant les calculs uniquement sur les jetons les plus importants, réduisant considérablement les besoins en calcul et en mémoire.
- 📚 Prise en charge massive du contexte : Processus jusqu'à 128 000 jetons (plus de 300 pages de texte), permettant la compréhension de documents longs et des flux de travail multi-documents.
- 💰 Réduction significative des coûts : Le coût d'inférence a été réduit de plus de 50% par rapport à DeepSeek V3.1-Terminus, ce qui le rend très efficace pour une utilisation à grande échelle.
- ⚡ Haute efficacité et rapidité : Optimisé pour une inférence rapide, offrant Accélération de 2 à 3 fois sur le traitement des textes longs par rapport aux versions précédentes sans sacrifier la qualité du résultat.
- 🏆 Maintient la qualité : Égale ou surpasse les performances de DeepSeek V3.1-Terminus sur de multiples benchmarks de qualité de génération comparable.
- ⚖️ Évolutif et stable : Optimisé pour un déploiement à grande échelle avec une consommation de mémoire et une stabilité d'inférence améliorées sur des longueurs de contexte étendues.
- 🚀 Mode non-réfléchissant : Privilégie les réponses directes et rapides sans générer d'étapes de raisonnement intermédiaires, idéal pour les applications sensibles à la latence.
Tarification de l'API
- Jetons d'entrée (CACHE HIT) : 0,0294 $ par million de jetons
- Jetons d'entrée (CACHE MISS) : 0,294 $ par million de jetons
- Jetons de sortie : 0,441 $ par million de jetons
Cas d'utilisation
- 💬 Chatbots et assistants interactifs rapides : Idéal pour les applications où la réactivité est essentielle.
- 📝 Résumé et extraction de documents longs : Gère efficacement les textes volumineux sans surcharge d'explications.
- 💻 Génération/Saisie du code : Traite rapidement les grands référentiels où la rapidité est essentielle.
- 🔍 Recherche et récupération de plusieurs documents : Fournit des résultats à faible latence provenant de sources multiples.
- 🔗 Intégrations de pipeline : Génère des sorties JSON directes sans raisonnement intermédiaire, idéal pour les flux de travail automatisés.
Exemple de code
Comparaison avec d'autres modèles
CONTRE. DeepSeek V3.1-Terminus: V3.2-Exp introduit le Mécanisme d'attention clairsemée DeepSeek, réduisant considérablement les coûts de calcul pour les contextes longs tout en maintenant une qualité de sortie quasi identique. Il atteint des performances de référence similaires, mais est environ 50 % moins cher et nettement plus rapide sur les entrées volumineuses par rapport à DeepSeek V3.1-Terminus.
CONTRE. GPT-5: Alors que GPT-5 excelle en matière de compréhension et de génération du langage brut pour un large éventail de tâches, DeepSeek V3.2-Exp se distingue notamment par sa capacité à gérer des contextes extrêmement longs (jusqu'à…). 128 000 jetons) de manière plus rentable. L'attention parcimonieuse de DeepSeek offre un avantage considérable en termes d'efficacité pour les applications traitant un grand nombre de documents et nécessitant plusieurs requêtes.
CONTRE. LLaMA 3: Les modèles LLaMA offrent des performances compétitives avec une attention dense, mais limitent généralement la taille du contexte à 32 000 jetons ou moinsL'architecture de DeepSeek vise une évolutivité à long contexte avec une attention clairsemée, permettant des performances plus fluides sur des documents et des ensembles de données très volumineux où LLaMA peut se dégrader ou devenir inefficace.
Foire aux questions
❓ Qu’est-ce que DeepSeek V3.2-Exp Non-Thinking et en quoi diffère-t-il des modèles standard ?
DeepSeek V3.2-Exp Non-Thinking est une variante spécialisée optimisée pour des réponses rapides et directes, sans raisonnement complexe. Contrairement aux modèles standards qui effectuent un raisonnement en plusieurs étapes, cette version privilégie la vitesse et l'efficacité en fournissant des réponses immédiates, sans passer par un processus de réflexion. Elle est ainsi idéale pour les applications exigeant des réponses rapides où un raisonnement élaboré n'est pas nécessaire.
❓ Quels sont les principaux cas d'utilisation d'un modèle d'IA non pensant ?
Les principaux cas d'utilisation incluent : la gestion de volumes importants de demandes de service client, les systèmes de questions-réponses simples, la classification de contenu, la recherche d'informations de base, les demandes de traduction simples et tout scénario où la vitesse et le débit priment sur la complexité de l'analyse. Cette solution est particulièrement précieuse pour les applications soumises à des exigences de latence strictes ou lorsqu'elles gèrent de nombreux utilisateurs simultanés effectuant des requêtes simples.
❓ Quels avantages en termes de performances offre la version sans réflexion ?
La variante sans raisonnement offre des avantages significatifs : latence d’inférence réduite (souvent 2 à 3 fois plus rapide), coûts de calcul inférieurs, débit plus élevé pour les requêtes simultanées, meilleure évolutivité et temps de réponse plus prévisibles. Ces avantages découlent de l’élimination de la charge de calcul liée à la génération et au traitement d’étapes de raisonnement approfondies avant la fourniture des réponses.
❓ Quels types de requêtes ne conviennent pas aux modèles non pensants ?
Les requêtes exigeant une résolution de problèmes complexes, un raisonnement à plusieurs étapes, des démonstrations mathématiques, des déductions logiques, une réflexion créative ou des considérations éthiques nuancées ne sont pas adaptées aux modèles non analytiques. Ces scénarios tirent profit de modèles standard capables de mener un raisonnement séquentiel pour parvenir à des réponses plus précises et réfléchies grâce à une analyse systématique.
❓ Comment les développeurs peuvent-ils choisir entre les variantes de modèles réflexifs et non réflexifs ?
Les développeurs doivent choisir en fonction des critères suivants : exigences de temps de réponse (modèles non décisionnels pour les besoins inférieurs à la seconde), complexité des requêtes (modèles décisionnels pour les tâches analytiques), contraintes de coût (modèles non décisionnels pour les applications à budget limité), objectifs d’expérience utilisateur et intérêt de l’application pour des processus de raisonnement transparents. De nombreuses applications utilisent une approche hybride, acheminant les requêtes simples vers des modèles non décisionnels et réservant les modèles décisionnels aux tâches complexes.
Terrain de jeu de l'IA



Se connecter