先把硬数字摆桌面:
- DeepSeek-V4-Pro
:总参 1.6T,激活 49B
- DeepSeek-V4-Flash
:总参 284B,激活 13B
两款都吃 100 万 token 上下文
Instruct 版走 FP4 + FP8 混合精度,base 全 FP8
全部 MoE 架构
数字猛归猛。但 1.6T 不是这次的看点——上半年 1T 级的开源 MoE 已经不止一家。
这次真正的爆点:效率
DeepSeek 在介绍里写得很直白:在百万 token 上下文场景下,V4-Pro 相较 V3.2,单 token 推理所需的 FLOPs 仅为其 27%,KV 缓存占用仅为 10%。
砍到 1/4 不到,KV cache 砍到 1/10。
DeepSeek 官方性能对比图
长上下文这件事一直卡在成本上:能塞 1M token 是一回事,每秒能跑得动是另一回事。代码 agent 读完整个仓库还能不爆显存、还能秒级响应,是开发者每天在挨的痛。
DeepSeek 这次直接把 KV cache 拉到 1/10!
Pro-Max 对前沿模型的成绩单
DeepSeek 自己放出的对照盘里,Pro-Max 模式(最大推理努力档)几个项打到了第一梯队。以下均为 DeepSeek 官方公布数据:
LiveCodeBench Pass@1:93.5
Codeforces Rating:3206
Apex Shortlist Pass@1:90.2
MCPAtlas Public:73.6(与 Opus 4.6 的 73.8 几乎并列)
对手是 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro、K2.6 Thinking、GLM-5.1——这一栏全是 2026 年的天花板模型。
DeepSeek-V4-Pro-Max 与前沿模型对比
也有没赢的地方。HLE 和 GPQA Diamond 这两个知识硬指标,Pro-Max 落后 Gemini-3.1-Pro 一截。HMMT 2026 Feb 也输给了 GPT-5.4 两个百分点。
但编程方向是真的硬。LiveCodeBench 和 Codeforces 同时拿第一,不是单点波动。
但是who care!看看定价!
Flash 的输出价格,每百万 token 不到 2 块人民币。
Pro 命中缓存之后,输入也才 1 块出头。
一个 1.6T 参数、百万上下文、编程跑分第一梯队的模型,API 定价跟一瓶矿泉水差不多。
再看 Flash——284B 参数,激活 13B,输出 $0.28/M,折合人民币大约 2 毛钱一百万 token。你让一个 agent 跑一整天,账单可能还不够买杯咖啡。
另外,想自己本地跑的同学可以看看这张硬件需求对比:
· · ·
关于 DeepSeek V4 的更多技术细节——混合注意力架构怎么把 KV cache 压到 1/10?CSA 和 HCA 怎么配合?FP4+FP8 混合精度怎么落地?本地部署踩坑指南?
这些内容,我们都会在赋范大模型技术社区里持续拆解。
赋范大模型技术社区——中文互联网头部大模型学习社区。12w+ 人在学,300+ 教程实战向,所有公开课免费开放给你。社区内已有大量 DeepSeek 系列相关公开课,从原理拆解到实战部署,帮你把技术真正吃透。
👇 扫下方🐎加老师,老师会拉你进群,第一时间获取更多 DeepSeek V4 深度解读与部署实战资料。