TL;DR:DeepSeek V4 官方提供 Anthropic 兼容接口(
https://api.deepseek.com/anthropic)。如果你在用 Claude Code/Anthropic SDK 跑 agent loop,通常只要换 endpoint + key 就能跑起来;在 cache 命中时输入成本低到离谱(官方:V4-Flash cache hit $0.0028 / 1M tokens)。
你如果在用 Claude Code(或者任何基于 Anthropic SDK / 协议的 Agent 工具),大概率遇到过两件事:
- 账单像漏水:写个中等复杂度的重构,Agent 一跑就几十万 token。
- 风控压力:账号、地区、支付方式,哪个环节抽一下你就得停工。
这周一个很关键的变化是:DeepSeek V4 提供了 Anthropic 兼容接口(官方 base_url:https://api.deepseek.com/anthropic)。
意思很直白:很多“Claude 生态”的工具,不用改代码,只要换个 endpoint + key,就能直接跑在 DeepSeek V4 上。
下面我把关键点讲清楚:
- DeepSeek V4 的官方定价到底有多低(含 cache hit / miss)
- Claude Code/Anthropic SDK 怎么两行切过去
- 什么时候该用 V4-Flash,什么时候该用 V4-Pro
- 别踩的坑:cache、thinking mode、超长上下文
说明:本文的价格数据来自 DeepSeek 官方定价页(2026-05-15 抓取)。我不编“实测跑了 N 天”。能实测的我会明确写“我测了”,不能实测的我就只引用官方数据。
1. DeepSeek V4 官方定价(这是最关键的杠杆)
DeepSeek 把价格按1M tokens报价,而且把输入拆成cache hit和cache miss两档。
来自官方文档(Models & Pricing):
deepseek-v4-flash
- 1M input tokens (cache miss):$0.14
- 1M input tokens (cache hit):$0.0028
- 1M output tokens:$0.28
deepseek-v4-pro(有折扣期,直到 2026/05/31 15:59 UTC)
- 1M input tokens (cache miss):$0.435(75% off)
- 1M input tokens (cache hit):$0.003625(75% off)
- 1M output tokens:$0.87(75% off)
你看到这里应该能意识到一件事:
Agent 这种“反复带着长 system prompt + 长工具说明 + 长上下文循环”的工作流,只要 cache 命中率上来,输入成本会非常夸张地下降。
这也是为什么很多人说“换了之后像白捡”——不是模型突然变强了,而是计费模型 + cache 定价让 Agent 经济性变了。
2. 两行配置:把 Anthropic 客户端指到 DeepSeek
DeepSeek 的 Anthropic 兼容接口是:
- Base URL(Anthropic Format):
https://api.deepseek.com/anthropic
这意味着:如果你的工具用的是 Anthropic SDK(Node/Python)或兼容协议,只要改 base_url + key。
2.1 Python:Anthropic SDK → DeepSeek Anthropic endpoint
fromanthropicimportAnthropic client=Anthropic(api_key="YOUR_DEEPSEEK_API_KEY",base_url="https://api.deepseek.com/anthropic",)msg=client.messages.create(model="deepseek-v4-flash",max_tokens=1024,messages=[{"role":"user","content":"给我一个可运行的 Python 快排实现"}],)print(msg.content[0].text)如果你之前是:
client=Anthropic(api_key="YOUR_ANTHROPIC_KEY")那就是“多加一行 base_url”,外加把 key 换掉。
2.2 Node.js:同理
importAnthropicfrom"@anthropic-ai/sdk";constclient=newAnthropic({apiKey:process.env.DEEPSEEK_API_KEY,baseURL:"https://api.deepseek.com/anthropic",});constmsg=awaitclient.messages.create({model:"deepseek-v4-flash",max_tokens:1024,messages:[{role:"user",content:"写一个可运行的 JS LRU Cache"}],});console.log(msg.content[0].text);注意:不同 SDK 版本参数名可能是
baseURL/base_url,以你用的版本为准。
3. Claude Code 怎么切(思路同上)
Claude Code 本质上也是“用 Anthropic 协议跑 agent loop”。能不能切,取决于它是否允许你配置:
- API key
- endpoint/base URL
- model name
如果你的环境支持设置这些变量(示意):
exportANTHROPIC_API_KEY="YOUR_DEEPSEEK_API_KEY"exportANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"exportANTHROPIC_MODEL="deepseek-v4-flash"那就能跑。
如果你用的版本不支持 base_url,那也正常——很多工具是“写死官方域名”的。解决思路有两个:
- 升级到支持自定义 endpoint 的版本
- 在你这边加一层API 网关/反代(把请求转到 DeepSeek,并把返回改成 Anthropic 兼容结构)
4. Flash vs Pro:怎么选(别纠结“哪个更强”)
我建议按任务类型选,而不是按“模型崇拜”。一个很实用的决策表:
- deepseek-v4-flash:日常开发、重构、测试、脚手架、文档生成(便宜、够用)
- deepseek-v4-pro:架构设计、复杂 bug 定位、长链路推理、改动面很大的迁移(贵一点,但仍然很划算)
选型对比表(只看你真正关心的)
| 维度 | V4-Flash | V4-Pro(折扣期) | 你该怎么选 |
|---|---|---|---|
| 输入(cache miss)$/1M | 0.14 | 0.435 | 上下文变化大、cache 命中低 → 更在意这个 |
| 输入(cache hit)$/1M | 0.0028 | 0.003625 | 大部分 agent loop 会命中很多 |
| 输出 $/1M | 0.28 | 0.87 | 你输出越长越要看这个 |
| Anthropic 兼容接口 | ✅ | ✅ | 两者都能直接接 |
| 上下文 | 1M | 1M | 长上下文场景两者都能扛 |
反直觉点:很多人把注意力都放在“输出价格”,但对 Agent 来说,真正的大头往往是“输入的 cache miss”。
因为 agent loop 会不断把:
- 工具说明
- system prompt
- 规划/执行历史
- 文件 diff
反复塞回去。
你只要让“重复部分”能 cache hit,输入成本会掉得非常猛。
5. 三个坑:你切过去之前先把这三件事想清楚
坑 1:thinking mode / non-thinking mode
DeepSeek V4-Flash 支持 thinking(默认)和 non-thinking。你如果在做简单任务(比如生成测试、改变量名),non-thinking往往更快更省。
但:不同 SDK 的开关方式不一样,你需要看 DeepSeek 的 guide(Thinking Mode)。
坑 2:cache 命中率不是“自动就高”
想要 cache hit:你得让前缀更稳定。
一个最简单的做法:
- 把 system prompt 固定(别每次拼接不同时间戳、随机 id)
- 工具列表稳定排序
- 把“项目约定/代码风格”这种大段内容放在前面
坑 3:模型名不要乱写
DeepSeek 官方模型名就是:
deepseek-v4-flashdeepseek-v4-pro
另外还有兼容名:
deepseek-chat(对应 flash 的 non-thinking)deepseek-reasoner(对应 flash 的 thinking)
如果你的工具只允许填老名字,也可以先用兼容名跑起来。
6. 一句现实建议:如果你是团队,用“统一入口”比到处改配置更重要
个人用 Claude Code,改两个环境变量就能跑;但团队里最容易失控的是:
- 每个人配法不一样
- key 分散在各处
- 费用没人看
- 哪天某个 endpoint 不通,大家一起停工
更稳的方式通常是:
- 你们内部有一个统一的模型入口(可以是网关/代理)
- 统一做:鉴权、审计、降级、fallback、配额
我自己在团队里通常不会让每个人直接绑供应商 endpoint,而是把入口收敛(不然排查问题会很痛苦)。
常见问题(FAQ)
Q1:DeepSeek 的 Anthropic 兼容接口能覆盖 Claude 的所有能力吗?
A:覆盖的是“协议层”的兼容(messages API、基本字段结构)。但像某些特定的工具调用字段、beta 特性、细节行为可能不完全一致。建议先用你们最关键的 3-5 个任务回归一遍。
Q2:我用的是 Claude Code,但版本不支持自定义 base_url,怎么办?
A:两条路:要么升级到支持自定义 endpoint 的版本;要么用一层内部代理/网关,把 Anthropic 请求转发到 DeepSeek,并做响应兼容。
Q3:为什么我感觉换了模型“差不多”,但账单差很多?
A:多数情况不是“模型差距”,而是DeepSeek 的 cache hit 输入价格极低。Agent 工作流里可复用前缀越多,差距越夸张。
参考:DeepSeek Models & Pricing(官方)