



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-non-thinking-v3.2-exp',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-non-thinking-v3.2-exp",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")
- API 操练场(Playground)

在集成之前,请在沙箱环境中测试所有 API 模型。
我们提供 300 多种模型供您集成到您的应用程序中。


产品详情
模型概述
DeepSeek-V3.2-Exp Non-Thinking 于 2025 年 9 月发布,是一款 基于Transformer的实验性大型语言模型作为 DeepSeek V3.1-Terminus 的升级版,它引入了创新技术。 DeepSeek稀疏注意力(DSA) 该机制能够实现高效且可扩展的长上下文理解,通过选择性地关注关键标记,提供更快、更经济高效的推理。
技术规格
- ⚙️ 模型生成: 基于 DeepSeek V3.1 的实验性中间体开发
- 🧠 建筑类型: 带有细粒度稀疏注意力机制的Transformer(DeepSeek稀疏注意力机制 - DSA)
- 📏 参数对齐: 训练内容与 V3.1-Terminus 版本一致,用于基准测试有效性
- 📖 上下文长度: 支持高达 128,000 个Tokens适用于多文档和长篇文本处理
- 📤 最大输出Tokens数: 默认值为 4,000,最多支持 8,000 个Tokens 每次响应
性能基准
在推理、编码和现实世界的智能任务等多个领域,性能与 V3.1-Terminus 持平或更优,同时显著提高了效率。
- ✅ GPQA-Diamond(问答): 得分 79.9略低于 V3.1 (80.7)
- 💻 LiveCodeBench(编程): 到达 74.1接近 V3.1 的 74.9%。
- ➕ AIME 2025(数学): 得分 89.3超过 V3.1 (88.4)
- 🏆 Codeforces 编程基准测试: 表演于 2121比 V3.1 (2046) 更好
- 🛠️ BrowseComp(代理工具使用): 实现 40.1比 V3.1 (38.5) 更好
主要特点
- ✨ DeepSeek 稀疏注意力 (DSA): 创新的细粒度稀疏注意力机制,将计算集中在最重要的标记上,从而大幅降低计算和内存需求。
- 📚 强大的上下文支持: 流程直至 128,000 个Tokens (超过 300 页的文本),支持理解长篇文档和多文档工作流程。
- 💰 大幅降低成本: 推理成本降低了超过 50% 与 DeepSeek V3.1-Terminus 相比,它对于大规模使用来说效率很高。
- ⚡ 高效快速: 针对快速推理进行了优化,提供 2-3倍加速 与之前的版本相比,在不牺牲输出质量的前提下,提高了长文本处理能力。
- 🏆 保持品质: 在多个基准测试中,DeepSeek V3.1-Terminus 的性能与同等质量的芯片相当或更优。
- ⚖️ 可扩展且稳定: 针对大规模部署进行了优化,提高了内存消耗和在更长上下文长度下的推理稳定性。
- 🚀 无思考模式: 优先提供直接、快速的答案,不生成中间推理步骤,非常适合对延迟敏感的应用。
API定价
- 输入标记(缓存命中): 0.0294美元 每100万个Tokens
- 输入标记(缓存未命中): 0.294美元 每100万个Tokens
- 输出标记: 0.441美元 每100万个Tokens
用例
- 💬 快速交互式聊天机器人和助手: 非常适合对响应速度要求极高的应用场景。
- 📝 长篇文档摘要与提取: 能够高效处理大段文本,无需额外解释。
- 💻 代码生成/自动完成: 快速处理大型存储库,速度至关重要。
- 🔍多文档搜索与检索: 提供跨多个数据源的低延迟结果。
- 🔗 管道集成: 直接输出 JSON 数据,无需中间推理过程,非常适合自动化工作流程。
代码示例
与其他型号的比较
VS. DeepSeek V3.1-终端: V3.2-Exp 引入了 DeepSeek稀疏注意力机制显著降低了长时间上下文的计算成本,同时保持了几乎相同的输出质量。它达到了类似的基准性能,但成本却低得多。 便宜50% 与 DeepSeek V3.1-Terminus 相比,处理大输入的速度明显更快。
VS. GPT-5: 虽然 GPT-5 在广泛的任务中,其原始语言理解和生成质量都处于领先地位,但 DeepSeek V3.2-Exp 在处理极长的上下文(长达 1000 行)方面表现尤为出色。 128K Tokens更具成本效益。DeepSeek 的稀疏注意力机制为文档密集型和多轮迭代应用提供了显著的效率优势。
VS. LLaMA 3: LLaMA 模型在密集注意力方面表现出色,但通常会限制上下文规模。 32K 个Tokens或更少DeepSeek 的架构旨在通过稀疏注意力实现长上下文可扩展性,从而在 LLaMA 可能性能下降或效率低下的超大型文档和数据集上实现更流畅的性能。
常见问题解答
❓ 什么是 DeepSeek V3.2-Exp 非思考模型?它与标准模型有何不同?
DeepSeek V3.2-Exp 非思考型是专为快速、直接响应而优化的版本,无需复杂的推理过程。与进行多步骤推理的标准模型不同,该版本优先考虑速度和效率,无需“思考”过程即可提供即时答案,因此非常适合需要快速响应且无需复杂推理的应用场景。
❓ 非思维型人工智能模型的主要应用场景有哪些?
主要应用场景包括:高容量客户服务响应、简易问答系统、内容分类任务、基础信息检索、简单翻译请求,以及任何速度和吞吐量比深度分析推理更重要的场景。对于延迟要求严格的应用或需要为大量并发用户提供简单查询的应用来说,它尤其有价值。
❓ 非智能版本有哪些性能优势?
这种非思考式算法在以下方面具有显著优势:推理延迟降低(通常快 2-3 倍)、计算成本更低、并发请求吞吐量更高、可扩展性更强以及响应时间更可预测。这些优势源于它无需生成和处理扩展推理步骤,从而避免了由此产生的计算开销。
❓ 哪些类型的查询不适合非思维模型?
需要复杂问题解决、多步骤推理、数学证明、逻辑演绎、创造性头脑风暴或细致入微的伦理考量的问题,并不适合非思维模型。这些场景需要标准模型来处理,因为标准模型能够进行链式推理,并通过系统分析得出更准确、更周全的答案。
❓ 开发者如何选择思考型模型和非思考型模型?
开发者应根据以下因素进行选择:响应时间要求(亚秒级响应需求适用非思考模型)、查询复杂度(分析任务适用思考模型)、成本限制(预算敏感型应用适用非思考模型)、用户体验目标,以及应用是否能从透明的推理过程中获益。许多应用采用混合方法,将简单查询路由到非思考模型,而将思考模型用于复杂任务。



登录