qwen-bg
max-ico04
0.182
出去
0.364
max-ico02
聊天
max-ico03
积极的
DeepSeek V4 闪存
在 1M 令牌上下文设置中,与 DeepSeek-V3.2 相比,V4 Flash 的单令牌 FLOPs 仅为 10%,KV 缓存大小仅为 7%——效率大幅提升,使得服务非常长的上下文实际上变得经济实惠。
新会员可获赠免费Tokens
Text to Speech
                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();
                                
                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")
Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠免费Tokens
qwenmax-bg
deepseek-copy (1).svg
DeepSeek V4 闪存

DeepSeek/模型/V4 闪光灯

DeepSeek V4 闪光灯

一个拥有 2840 亿个参数的混合专家模型,旨在实现快速、经济高效的推理,同时又不牺牲推理深度。每次前向传播激活 130 亿个参数。包含 100 万个上下文词元。

预览日期:2026年4月24日 公开组 教育部建筑 1M 背景
284B
总参数
教育部架构
13B
每回合有效
每次前传
100万
上下文窗口
Tokens
84吨/秒
输出速度
与 52 中位数相比
1.00秒
TTFT
与 2.03 秒中位数相比
47
智库指数
平均公开赛体重:28
// 01 — 概述

什么是DeepSeek V4闪存?

DeepSeek V4 Flash 是 DeepSeek 第四代产品系列中以效率为先的成员。它与 V4 Pro 作为互补选项——Pro 侧重于智能化,而 Flash 则侧重于…… 吞吐量、延迟和每个Tokens的成本 但质量并没有大幅下降。

该模型采用稀疏混合专家设计:虽然总共包含 2840 亿个参数,但只有少数参数被使用。 130亿人活跃 在任何一次推理调用中,这都直接转化为更低的计算量和更低的成本,同时还能保持比单个密集型 13B 模型更清晰的输出结果。

API定价(每100万Tokens)
输入(缓存未命中)
0.18美元
每100万个Tokens
输入(缓存命中)
0.04美元
每100万个Tokens
输出
0.36美元
每100万个Tokens
// 02 — 建筑

架构与关键创新

V4 Flash 与之前的 DeepSeek 版本以及更广泛的开源领域在架构设计上存在一些差异。

压缩稀疏注意力(CSA)
沿序列维度压缩 KV 缓存(闪存中压缩率为 4),然后应用 DeepSeek 稀疏注意力机制。闪电索引器选择 最相关的前 512 条 每个查询都包含压缩的 KV 条目,外加一个 128 个标记的滑动窗口,因此永远不会错过本地上下文。
高度压缩注意力(HCA)
采用更为激进的压缩率 128然后,对这种压缩表示进行密集注意力机制处理——这使得模型能够以低成本的方式全局查看每一层中距离较远的词元。CSA 和 HCA 层在整个过程中交错排列。
流形约束超连接
加强传统残余连接,以增强跨层信号传播的稳定性,同时 保持模型表达能力 ——这是在高压缩比下保持质量的关键因素。
MoE路由+μ子优化器
前 3 层 MoE 使用哈希路由;其余层使用学习到的 DeepSeekMoE 路由。 多标记预测 在深度 1 处启用。训练期间使用 Muon 优化器,同时结合 FP4/FP8 混合精度,以降低训练成本。
训练数据

接受过超过 32万亿种多样化、高质量的Tokens训练后采用两阶段流程:首先通过 SFT 和 RL 与 GRPO 独立培养特定领域的专家,然后通过策略内蒸馏进行统一的模型整合。

// 03 — 推理模式

推理模式

V4 Flash 支持三种可配置的推理努力模式——无需完全切换模型即可直接控制延迟/质量权衡。

非思考
不生成推理链。延迟最低,令牌数最少。最适合简单查询、聊天和 RAG 检索步骤。
思维
回答问题前的内部思考过程。编码、结构化推理和多步骤智能体任务的标准模式。
思考麦克斯
扩展推理预算。在复杂数学、STEM 和形式化证明方面,性能接近 V4 Pro 版本。推荐上下文:384K+ 词元。
// 04 — 基准测试

基准性能

在人工智能分析智能指数 v4.0(涵盖 GDPval-AA、GPQA Diamond、HLE、IFBench、SciCode、Terminal-Bench 等)中,V4 Flash 在推理模式下的得分 47 比 28 大,而开放体重的中位数为 28。

基准
分数
地位
智能指数(AA v4.0)
47/100
+19 与中位数相比
Putnam-200 Pass@8
81.0
顶级
HMMT 2026年2月
95.2
领导者
IMOAnswerBench
89.8
领导者
输出速度
84吨/秒
1.6倍中位数
TTFT
1.00秒
速度提升 2 倍
// 05 — 用例

用例

V4 Flash 定位为大多数服务场景下经济高效的默认选项——除非明确需要最高前沿智能,否则它是您的首选模型。

  • 编码辅助 能够高吞吐量地理解长上下文代码库、进行差异审查和自动补全。单次调用即可处理 100 万个标记的上下文,轻松处理整个中等规模的代码库。
  • RAG管道 高容量检索合成,利用缓存命中将输入成本降低到几分之一美分。非常适合文档密集型问答生产工作负载。
  • 代理 多步骤工具调用循环。在简单的代理任务上,其性能与 V4 Pro 相当,但每个令牌的成本却低 3-4 倍。
  • 文档处理 1M-token 上下文可以在一次调用中吸收整个合约、代码库或报告存档——无需分块。
  • 数学/STEM Think Max 模式以远低于 Pro 的价格提供前沿级别的形式推理能力。95.2 于 2026 年 2 月在 HMMT 上发布。
  • 在线聊天与支持 亚秒级的 TTFT 和 84 t/s 的吞吐量使得实时应用中的对话延迟几乎无法察觉。
// 06 — 比较

对比情况

对比
DeepSeek V4 Pro
Pro 总共存储 1.6TB 的数据,其中 49TB 为有效参数。闪光灯大约…… 价格便宜 3-4 倍,速度更快推理能力接近专业级水平。简单代理任务:同等水平。知识密集型任务链:专业级领先。
对比
DeepSeek V3.2
Flash 使用 V3.2 的 10% 浮点运算次数 在 100 万个令牌的上下文中,其 KV 缓存的 7% 实现了效率的飞跃,同时引入了 V3.2 所缺乏的混合注意力机制和可配置推理模式。
对比
GPT-5.4 Nano
V4 Flash 目前是 小型高性能机型中最便宜的价格低于 GPT-5.4 Nano,同时提供大多数 nano 级模型不提供的开放权重和 100 万个Tokens上下文。

API 操练场(Playground)

集成前,请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。
免费试用
api-right-1
模型-bg02-1

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用