在

0.182

出去

0.364

聊天

积极的

DeepSeek V4 闪存

在 1M 令牌上下文设置中，与 DeepSeek-V3.2 相比，V4 Flash 的单令牌 FLOPs 仅为 10%，KV 缓存大小仅为 7%——效率大幅提升，使得服务非常长的上下文实际上变得经济实惠。

新会员可获赠免费Tokens

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'deepseek/deepseek-v4-flash',
    messages: [
      {
        role: 'system',
        content: 'You are an AI assistant who knows everything.',
      },
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[
        {
            "role": "system",
            "content": "You are an AI assistant who knows everything.",
        },
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠免费Tokens

获取 API 密钥探索模型

DeepSeek V4 闪存

DeepSeek V4 闪光灯

一个拥有 2840 亿个参数的混合专家模型，旨在实现快速、经济高效的推理，同时又不牺牲推理深度。每次前向传播激活 130 亿个参数。包含 100 万个上下文词元。

预览日期：2026年4月24日公开组教育部建筑 1M 背景

284B

总参数

教育部架构

13B

每回合有效

每次前传

100万

上下文窗口

Tokens

84吨/秒

输出速度

与 52 中位数相比

1.00秒

TTFT

与 2.03 秒中位数相比

智库指数

平均公开赛体重：28

// 01 — 概述

什么是DeepSeek V4闪存？

DeepSeek V4 Flash 是 DeepSeek 第四代产品系列中以效率为先的成员。它与 V4 Pro 作为互补选项——Pro 侧重于智能化，而 Flash 则侧重于…… 吞吐量、延迟和每个Tokens的成本 但质量并没有大幅下降。

该模型采用稀疏混合专家设计：虽然总共包含 2840 亿个参数，但只有少数参数被使用。 130亿人活跃 在任何一次推理调用中，这都直接转化为更低的计算量和更低的成本，同时还能保持比单个密集型 13B 模型更清晰的输出结果。

API定价（每100万Tokens）

输入（缓存未命中）

0.18美元

每100万个Tokens

输入（缓存命中）

0.04美元

每100万个Tokens

输出

0.36美元

每100万个Tokens

// 02 — 建筑

架构与关键创新

V4 Flash 与之前的 DeepSeek 版本以及更广泛的开源领域在架构设计上存在一些差异。

压缩稀疏注意力（CSA）

沿序列维度压缩 KV 缓存（闪存中压缩率为 4），然后应用 DeepSeek 稀疏注意力机制。闪电索引器选择 最相关的前 512 条 每个查询都包含压缩的 KV 条目，外加一个 128 个标记的滑动窗口，因此永远不会错过本地上下文。

高度压缩注意力（HCA）

采用更为激进的压缩率 128然后，对这种压缩表示进行密集注意力机制处理——这使得模型能够以低成本的方式全局查看每一层中距离较远的词元。CSA 和 HCA 层在整个过程中交错排列。

流形约束超连接

加强传统残余连接，以增强跨层信号传播的稳定性，同时 保持模型表达能力 ——这是在高压缩比下保持质量的关键因素。

MoE路由+μ子优化器

前 3 层 MoE 使用哈希路由；其余层使用学习到的 DeepSeekMoE 路由。 多标记预测 在深度 1 处启用。训练期间使用 Muon 优化器，同时结合 FP4/FP8 混合精度，以降低训练成本。

训练数据

接受过超过 32万亿种多样化、高质量的Tokens训练后采用两阶段流程：首先通过 SFT 和 RL 与 GRPO 独立培养特定领域的专家，然后通过策略内蒸馏进行统一的模型整合。

// 03 — 推理模式

推理模式

V4 Flash 支持三种可配置的推理努力模式——无需完全切换模型即可直接控制延迟/质量权衡。

非思考

不生成推理链。延迟最低，令牌数最少。最适合简单查询、聊天和 RAG 检索步骤。

思维

回答问题前的内部思考过程。编码、结构化推理和多步骤智能体任务的标准模式。

思考麦克斯

扩展推理预算。在复杂数学、STEM 和形式化证明方面，性能接近 V4 Pro 版本。推荐上下文：384K+ 词元。

// 04 — 基准测试

基准性能

在人工智能分析智能指数 v4.0（涵盖 GDPval-AA、GPQA Diamond、HLE、IFBench、SciCode、Terminal-Bench 等）中，V4 Flash 在推理模式下的得分 47 比 28 大，而开放体重的中位数为 28。。

基准

分数

地位

智能指数（AA v4.0）

47/100

+19 与中位数相比

Putnam-200 Pass@8

81.0

顶级

HMMT 2026年2月

95.2

领导者

IMOAnswerBench

89.8

领导者

输出速度

84吨/秒

1.6倍中位数

TTFT

1.00秒

速度提升 2 倍

// 05 — 用例

用例

V4 Flash 定位为大多数服务场景下经济高效的默认选项——除非明确需要最高前沿智能，否则它是您的首选模型。

编码辅助能够高吞吐量地理解长上下文代码库、进行差异审查和自动补全。单次调用即可处理 100 万个标记的上下文，轻松处理整个中等规模的代码库。
RAG管道高容量检索合成，利用缓存命中将输入成本降低到几分之一美分。非常适合文档密集型问答生产工作负载。
代理多步骤工具调用循环。在简单的代理任务上，其性能与 V4 Pro 相当，但每个令牌的成本却低 3-4 倍。
文档处理 1M-token 上下文可以在一次调用中吸收整个合约、代码库或报告存档——无需分块。
数学/STEM Think Max 模式以远低于 Pro 的价格提供前沿级别的形式推理能力。95.2 于 2026 年 2 月在 HMMT 上发布。
在线聊天与支持亚秒级的 TTFT 和 84 t/s 的吞吐量使得实时应用中的对话延迟几乎无法察觉。

// 06 — 比较

对比情况

对比

DeepSeek V4 Pro

Pro 总共存储 1.6TB 的数据，其中 49TB 为有效参数。闪光灯大约…… 价格便宜 3-4 倍，速度更快推理能力接近专业级水平。简单代理任务：同等水平。知识密集型任务链：专业级领先。

对比

DeepSeek V3.2

Flash 使用 V3.2 的 10% 浮点运算次数 在 100 万个令牌的上下文中，其 KV 缓存的 7% 实现了效率的飞跃，同时引入了 V3.2 所缺乏的混合注意力机制和可配置推理模式。

对比

GPT-5.4 Nano

V4 Flash 目前是 小型高性能机型中最便宜的价格低于 GPT-5.4 Nano，同时提供大多数 nano 级模型不提供的开放权重和 100 万个Tokens上下文。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用

新会员可获赠免费Tokens

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

DeepSeek V4 闪光灯

什么是DeepSeek V4闪存？

架构与关键创新

推理模式

基准性能

用例

对比情况

API 操练场（Playground）

300 多个 AI 模型 OpenClaw 和人工智能代理

300 多个 AI 模型
OpenClaw 和人工智能代理