

在
0.182 出去
0.364 

Text to Speech
const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'deepseek/deepseek-v4-flash',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

DeepSeek V4 闪光灯
一个拥有 2840 亿个参数的混合专家模型,旨在实现快速、经济高效的推理,同时又不牺牲推理深度。每次前向传播激活 130 亿个参数。包含 100 万个上下文词元。
284B
总参数
教育部架构
13B
每回合有效
每次前传
100万
上下文窗口
Tokens
84吨/秒
输出速度
与 52 中位数相比
1.00秒
TTFT
与 2.03 秒中位数相比
47
智库指数
平均公开赛体重:28
// 01 — 概述
什么是DeepSeek V4闪存?
DeepSeek V4 Flash 是 DeepSeek 第四代产品系列中以效率为先的成员。它与 V4 Pro 作为互补选项——Pro 侧重于智能化,而 Flash 则侧重于…… 吞吐量、延迟和每个Tokens的成本 但质量并没有大幅下降。
该模型采用稀疏混合专家设计:虽然总共包含 2840 亿个参数,但只有少数参数被使用。 130亿人活跃 在任何一次推理调用中,这都直接转化为更低的计算量和更低的成本,同时还能保持比单个密集型 13B 模型更清晰的输出结果。
API定价(每100万Tokens)
输入(缓存未命中)
0.18美元
每100万个Tokens
输入(缓存命中)
0.04美元
每100万个Tokens
输出
0.36美元
每100万个Tokens
// 02 — 建筑
架构与关键创新
V4 Flash 与之前的 DeepSeek 版本以及更广泛的开源领域在架构设计上存在一些差异。
压缩稀疏注意力(CSA)
沿序列维度压缩 KV 缓存(闪存中压缩率为 4),然后应用 DeepSeek 稀疏注意力机制。闪电索引器选择 最相关的前 512 条 每个查询都包含压缩的 KV 条目,外加一个 128 个标记的滑动窗口,因此永远不会错过本地上下文。
高度压缩注意力(HCA)
采用更为激进的压缩率 128然后,对这种压缩表示进行密集注意力机制处理——这使得模型能够以低成本的方式全局查看每一层中距离较远的词元。CSA 和 HCA 层在整个过程中交错排列。
流形约束超连接
加强传统残余连接,以增强跨层信号传播的稳定性,同时 保持模型表达能力 ——这是在高压缩比下保持质量的关键因素。
MoE路由+μ子优化器
前 3 层 MoE 使用哈希路由;其余层使用学习到的 DeepSeekMoE 路由。 多标记预测 在深度 1 处启用。训练期间使用 Muon 优化器,同时结合 FP4/FP8 混合精度,以降低训练成本。
训练数据
接受过超过 32万亿种多样化、高质量的Tokens训练后采用两阶段流程:首先通过 SFT 和 RL 与 GRPO 独立培养特定领域的专家,然后通过策略内蒸馏进行统一的模型整合。
// 03 — 推理模式
推理模式
V4 Flash 支持三种可配置的推理努力模式——无需完全切换模型即可直接控制延迟/质量权衡。
非思考
不生成推理链。延迟最低,令牌数最少。最适合简单查询、聊天和 RAG 检索步骤。
思维
回答问题前的内部思考过程。编码、结构化推理和多步骤智能体任务的标准模式。
思考麦克斯
扩展推理预算。在复杂数学、STEM 和形式化证明方面,性能接近 V4 Pro 版本。推荐上下文:384K+ 词元。
// 04 — 基准测试
基准性能
在人工智能分析智能指数 v4.0(涵盖 GDPval-AA、GPQA Diamond、HLE、IFBench、SciCode、Terminal-Bench 等)中,V4 Flash 在推理模式下的得分 47 比 28 大,而开放体重的中位数为 28。。
基准
分数
地位
智能指数(AA v4.0)
47/100
+19 与中位数相比
Putnam-200 Pass@8
81.0
顶级
HMMT 2026年2月
95.2
领导者
IMOAnswerBench
89.8
领导者
输出速度
84吨/秒
1.6倍中位数
TTFT
1.00秒
速度提升 2 倍
// 05 — 用例
用例
V4 Flash 定位为大多数服务场景下经济高效的默认选项——除非明确需要最高前沿智能,否则它是您的首选模型。
- 编码辅助 能够高吞吐量地理解长上下文代码库、进行差异审查和自动补全。单次调用即可处理 100 万个标记的上下文,轻松处理整个中等规模的代码库。
- RAG管道 高容量检索合成,利用缓存命中将输入成本降低到几分之一美分。非常适合文档密集型问答生产工作负载。
- 代理 多步骤工具调用循环。在简单的代理任务上,其性能与 V4 Pro 相当,但每个令牌的成本却低 3-4 倍。
- 文档处理 1M-token 上下文可以在一次调用中吸收整个合约、代码库或报告存档——无需分块。
- 数学/STEM Think Max 模式以远低于 Pro 的价格提供前沿级别的形式推理能力。95.2 于 2026 年 2 月在 HMMT 上发布。
- 在线聊天与支持 亚秒级的 TTFT 和 84 t/s 的吞吐量使得实时应用中的对话延迟几乎无法察觉。
// 06 — 比较
对比情况
对比
DeepSeek V4 Pro
Pro 总共存储 1.6TB 的数据,其中 49TB 为有效参数。闪光灯大约…… 价格便宜 3-4 倍,速度更快推理能力接近专业级水平。简单代理任务:同等水平。知识密集型任务链:专业级领先。
对比
DeepSeek V3.2
Flash 使用 V3.2 的 10% 浮点运算次数 在 100 万个令牌的上下文中,其 KV 缓存的 7% 实现了效率的飞跃,同时引入了 V3.2 所缺乏的混合注意力机制和可配置推理模式。
对比
GPT-5.4 Nano
V4 Flash 目前是 小型高性能机型中最便宜的价格低于 GPT-5.4 Nano,同时提供大多数 nano 级模型不提供的开放权重和 100 万个Tokens上下文。



登录