🔥 GPT-5.5 深度解析:代号"土豆",Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍
文章目录
- 🔥 GPT-5.5 深度解析:代号"土豆",Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍
- 📖 前言:为什么叫"土豆",又为什么这次是真的重要
- 🎯 速览:核心数据
- 🏗️ 第一个重点:架构重建——为什么"重训练"这么重要
- GPT-5 系列的两类版本
- Agent 导向训练目标
- 📊 第二个重点:五大核心能力逐一拆解
- 能力一:Terminal-Bench 82.7%——Agent 工作流执行登顶
- 能力二:长上下文 MRCR@1M:36.6% → 74.0%(跳跃 37 个百分点)
- 能力三:GDPval 84.9%——44 种职业的知识工作能力
- 能力四:Computer Use 78.7%——全桌面操作能力首次超越 Anthropic
- 能力五:Token 效率提升——贵但不一定更贵
- ⚠️ 第三个重点:幻觉率 86%——最不能忽视的数字
- 数字本身
- 为什么会出现这个矛盾?
- 对开发者的实际影响
- 🔄 第四个重点:与 Opus 4.7 的竞争关系
- 🛠️ 开发者快速上手
- 🎁 总结
- 📣 最后
写在前面(2026.04.24 首发):北京时间 4 月 23 日深夜,OpenAI 正式发布 GPT-5.5。这是 GPT-5 系列第一个从头重新训练的版本(代号 Spud,土豆)——此前的 5.1/5.2/5.3/5.4 都是在同一基础模型上做后训练迭代,5.5 是真正的重训练,基础架构、预训练语料、Agent 目标全部重做。Terminal-Bench 2.0 以 82.7% 登顶,比 Opus 4.7 高 13 个百分点。但同时有一个数字让圈子里炸锅了:幻觉率 86%,是 Opus 4.7 的 2.4 倍。
📌基本信息
- 📅 发布时间:2026年4月23日
- 🏢 出品:OpenAI
- 🔖 代号:Spud(土豆)
- 💰 API 定价:$5/$30 per M Token(GPT-5.4 的 2 倍)
- 📖 上下文:1M Token(API 正式支持的 OpenAI 首款)
- 🎯 定位:Agent 工作流旗舰,自主执行复杂多步骤任务
- 👤 可用用户:ChatGPT Plus/Pro/Business/Enterprise
📖 前言:为什么叫"土豆",又为什么这次是真的重要
GPT-5 系列到现在出了很多版本:5.1、5.2、5.3、5.4。坦率说,这些版本对大多数用户来说感知不强——它们都是在同一个基础模型上做后训练迭代,就像在同一块面团上反复揉搓,形状会变,但面团本身没换。
GPT-5.5 不同:它是自 GPT-4.5 以来第一个完全重训练的基础模型。 架构改了,预训练语料换了,训练目标也从"生成高质量文本"转向了"完成 Agent 任务"。
代号 Spud(土豆)是 OpenAI 内部的工程绰号。土豆这种食物有意思的地方在于——普通,但扎实,做什么都能用。OpenAI 对 GPT-5.5 的期望,大概就是成为 2026 年 AI Agent 时代的"基础食材":不光鲜,但是可靠的底座。
Sam Altman 的措辞更加直接,他在发布后评论道,GPT-5.5 是"通往 AGI 前最后一个里程碑"。
这是一个不小的声明。
🎯 速览:核心数据
| Benchmark | GPT-5.4 | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 75.1% | 82.7%🥇 | 69.4% | 68.5% |
| GDPval(44 职业) | ~80% | 84.9%🥇 | ~78% | ~82% |
| OSWorld-Verified(Computer Use) | 75.0% | 78.7%🥇 | ~70% | ~71% |
| BrowseComp(搜索) | ~82% | 84.4% | 79.3% | 85.9% |
| SWE-bench Pro(真实 Bug) | 57.7% | 58.6% | 64.3%🥇 | 54.2% |
| MRCR@1M(长上下文) | 36.6% | 74.0% | 32.2% | ~70% |
| MCP-Atlas(工具调用) | ~68% | 75.3% | 77.3%🥇 | — |
| AA-Omniscience 幻觉率 | — | 86%⚠️ | 36% | 50% |
| Artificial Analysis 综合指数 | — | 60🥇 | — | — |
| API 定价(输入/输出) | $2.5/$15 | $5/$30 | $5/$25 | — |
一眼看出来的格局:GPT-5.5 在执行类任务(Terminal-Bench、Computer Use、GDPval)全面领先;Opus 4.7 在代码理解类任务(SWE-bench Pro、MCP-Atlas)继续占优。这不是简单的你高我低,而是两个模型在不同赛道上各自领跑。
🏗️ 第一个重点:架构重建——为什么"重训练"这么重要
GPT-5 系列的两类版本
理解这次发布,需要先区分两种迭代方式:
后训练迭代(GPT-5.1 ~ 5.4): 预训练基础模型不变 在其上做 RLHF、SFT、更强的 safety 对齐 就像在同一座房子里重新装修 → 改善表面行为,但能力天花板没变 完全重训练(GPT-5.5): 从头开始预训练 更新架构、更换语料、重定目标 就像推倒重建一栋新楼 → 能力天花板被重置,潜力更大GPT-5.5 是原生全模态(Omnimodal)架构——文本、图像、音频、视频在同一个统一系统里处理,而不是事后拼接。 这与 GPT-4o 时代"语言模型 + 外挂多模态"的方式有根本区别。
Agent 导向训练目标
GPT-5.5 的训练目标不再是"生成高质量的下一个 Token",而是**“完成一个 Agent 任务”**。
这个区别非常具体:
传统语言模型训练目标: 给定前文,预测下一个词 → 优化的是单步生成质量 Agent 导向训练目标(GPT-5.5): 给定一个任务,最终任务完成了算成功,中途过程不重要 → 优化的是多步规划 + 工具调用 + 自我纠错的整体效果OpenAI 将其描述为"一个能理解复杂目标、使用工具、检查自己的工作、并把多步骤任务执行到底的系统——不需要人在每个环节重新提示"。
这就是 Terminal-Bench 2.0 领先那么多的根本原因:Terminal-Bench 测的是"在命令行环境里,从理解任务到自主执行一整套复杂工作流的能力",这正是 Agent 导向训练最直接体现的场景。
📊 第二个重点:五大核心能力逐一拆解
能力一:Terminal-Bench 82.7%——Agent 工作流执行登顶
Terminal-Bench 2.0 是 2026 年最接近真实工程工作流的 Benchmark:
测试场景示例: 给一个代码仓库 + 一段需求描述 模型要自主: 1. 读懂需求 2. 找到相关代码 3. 做出修改 4. 运行测试 5. 修复测试失败 6. 整理 commit message 7. 全部通过才算完成 不允许中途人工介入,全部自主完成GPT-5.5 的 82.7% vs Claude Opus 4.7 的 69.4%,差了 13 个百分点。这意味着在需要计划、迭代、工具协调的复杂命令行工作流上,GPT-5.5 明确超越了 Opus 4.7。
能力二:长上下文 MRCR@1M:36.6% → 74.0%(跳跃 37 个百分点)
GPT-5.5 在 OpenAI MRCR v2 8-needle 512K-1M 测试上从 36.6% 跳升到 74.0%,这是本次发布最被低估的数字。
这个 37 个百分点的提升对企业级应用的含义是:
之前(GPT-5.4,36.6%): 把整个合同文件(100 页)装进上下文 → 模型有 63% 的概率找不到关键条款 → "勉强可用",需要大量人工校验 现在(GPT-5.5,74.0%): 同样的任务 → 找到关键条款的概率超过 74% → "真正可部署"于合同审查、大型代码库审计、多文档综合分析特别值得注意的是:Opus 4.7 在这个测试上只有 32.2%(因为 Tokenizer 变更导致的副作用),而 GPT-5.5 达到 74.0%。这意味着在"需要在超长文档里精准定位信息"这个场景,GPT-5.5 目前是最强的可用模型。
能力三:GDPval 84.9%——44 种职业的知识工作能力
GDPval 是一个非常接地气的 Benchmark:收集了 44 种职业(金融分析师、律师、医生、工程师……)的真实工作任务,让人类专业人员和 AI 各自完成,盲测评分。
GPT-5.5 在 84.9% 的比较中达到或超越了行业专业人员的水平,GPT-5.5 Pro 版本在 BrowseComp(网络研究测试)上达到 90.1%。
这不是说 AI 已经能替代这 44 个职业——测试的是"面对一个具体的工作任务,AI 的输出质量能达到专业人员水平吗",不是"整个职业的全部工作"。但 84.9% 这个数字,确实已经让很多人感到不安了。
能力四:Computer Use 78.7%——全桌面操作能力首次超越 Anthropic
GPT-5.5 在 OSWorld-Verified 上达到 78.7%(GPT-5.4 为 75.0%),这是 OpenAI 主流模型首次在全桌面电脑使用能力上超越 Anthropic。
Computer Use 是指:给模型一个桌面截图,让它自主操作(点击、输入、拖拽)完成任务。这是 AI Agent 进入物理工作流的核心能力。
78.7% 意味着 10 次任务里,7-8 次能自主完成。距离"可以放心让 AI 在你的电脑上跑一整天"还有距离,但已经是生产可用的起点。
能力五:Token 效率提升——贵但不一定更贵
API 价格从 GPT-5.4 的 $2.5/$15 翻到了$5/$30,价格翻倍,让很多开发者叫苦。
但 OpenAI 的论据是:GPT-5.5 在真实线上服务中保持与 GPT-5.4 相同的每 Token 延迟,同时以更少的 Token 完成相同的 Codex 任务,从而降低了整体推理成本。
具体测试数据:同一组 Codex 任务,GPT-5.5 完成所用 Token 数平均减少约 40%。
换算下来:
GPT-5.4 完成一个 Codex 任务:10,000 tokens × $0.015/1K = $0.15 GPT-5.5 完成同一任务:6,000 tokens × $0.030/1K = $0.18 → 单价翻倍,但 Token 效率提升,实际成本只涨 20%当然,这是 OpenAI 自己的测试数据。实际场景差异很大,需要开发者自己跑数据验证。
⚠️ 第三个重点:幻觉率 86%——最不能忽视的数字
这是整篇文章最重要的部分,也是大多数发布稿都轻描淡写的地方。
数字本身
Artificial Analysis 用 AA-Omniscience 做了独立第三方测试:
| 模型 | 知识准确率 | 幻觉率 |
|---|---|---|
| GPT-5.5 | 57%(最高) | 86%⚠️ |
| Gemini 3.1 Pro | ~52% | 50% |
| Claude Opus 4.7 | ~48% | 36%(最低) |
GPT-5.5 的准确率是所有模型中最高的,达到 57%,意味着它在回忆事实方面确实优于所有竞品。然而它的幻觉率高达 86%。作为对比,Claude Opus 4.7 的幻觉率是 36%,Gemini 3.1 Pro 是 50%。换句话说,GPT-5.5 知道的东西确实更多,但当它不确定答案时,它选择闭嘴的概率远低于对手。它更倾向于给出一个回答,哪怕这个回答可能是错的。
为什么会出现这个矛盾?
这背后是一个深层的训练目标权衡:
Agent 导向训练的副作用: 目标是"把任务做完" → 训练中奖励"给出答案、完成任务"的行为 → 惩罚"说不知道、停下来"的行为 长期下来,模型学会了: "与其说不知道让任务失败,不如给个答案继续往下走" 这在 Agent 场景里有时是好的(减少中断) 但在需要高可靠性的场景里,这是致命的Opus 4.7 的训练目标相对偏向"更诚实不乱编"——它的 BrowseComp 成绩也因此略低(宁可说不知道也不乱答)。这是两种不同的价值取舍,不是简单的好坏之分。
对开发者的实际影响
这个数字意味着什么?
# 高幻觉率场景下的代码(不建议直接用 GPT-5.5):# ❌ 危险用法:让 GPT-5.5 直接生成医疗诊断报告report=gpt55.complete("根据这些症状给出诊断建议")# → 幻觉率 86%,报告里的数据引用可能是虚构的# ✅ 安全用法:GPT-5.5 做执行,加入验证层result=gpt55.complete("完成这个数据处理任务")verified=claude_opus.complete(f"验证以下内容的准确性:{result}")适合 GPT-5.5 的场景:执行确定性的工程任务(Terminal 操作、代码生成、Computer Use),这类场景的输出可以通过运行/测试来验证,幻觉率的影响被"可执行性"这道防线过滤了。
不适合 GPT-5.5 的场景:医疗诊断、法律分析、事实核查、金融报告——任何"无法自动验证"且"错了有后果"的场景。
🔄 第四个重点:与 Opus 4.7 的竞争关系
一周之内,Anthropic 和 OpenAI 各发布了一款旗舰:
- 4月16日:Claude Opus 4.7(SWE-bench Pro 64.3%,代码理解领跑)
- 4月23日:GPT-5.5(Terminal-Bench 82.7%,Agent 执行领跑)
这不是同一个赛道上的竞争,而是两个模型在不同能力维度上各自建立优势:
GPT-5.5 领先的维度: ✅ Terminal-Bench(计划 + 工具协调 + 迭代执行) ✅ Computer Use(桌面操作) ✅ GDPval(知识工作广度) ✅ 长上下文检索(MRCR@1M 74.0%) Claude Opus 4.7 领先的维度: ✅ SWE-bench Pro(真实 Bug 修复) ✅ MCP-Atlas(工具调用精度) ✅ 幻觉率(36% vs 86%) ✅ 多语言理解(MMMLU 91.5% vs 83.2%) ✅ 视觉准确率(XBOW 98.5%)业界的共识正在形成:把 Agent 任务和 Computer Use 路由给 GPT-5.5,把复杂代码重构和代码审查路由给 Opus 4.7,把简单任务交给更便宜的模型(GPT-5.4 mini 或 Claude Haiku 4.5)。
多模型路由正在成为 2026 年 Agent 系统的标准架构,而不是"找一个最强的模型包打天下"。
🛠️ 开发者快速上手
fromopenaiimportOpenAI client=OpenAI(api_key="sk-...")# GPT-5.5 标准调用response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"system","content":"你是一个 Agent 任务执行专家"},{"role":"user","content":"分析这个 Python 项目的性能瓶颈并给出优化方案"}],max_tokens=4096,)print(response.choices[0].message.content)# GPT-5.5 + 工具调用(最适合的使用方式)tools=[{"type":"function","function":{"name":"execute_shell","description":"在沙箱环境中执行 shell 命令","parameters":{"type":"object","properties":{"command":{"type":"string","description":"要执行的命令"}},"required":["command"]}}}]response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":"运行测试套件并报告失败的测试"}],tools=tools,tool_choice="auto",)# GPT-5.5 1M Token 长上下文(全新能力)withopen("large_codebase.txt")asf:codebase=f.read()# 最大 ~75 万字response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":f"分析以下代码库中所有的安全漏洞:\n\n{codebase}"}],max_tokens=8192,)注意事项:
- API Context Codex 模式下上下文为 400K,全 API 模式为 1M
- 输出 Token 价格 $30/M,Agent 场景输出 Token 多,务必设置
max_tokens上限 - 建议配合 LangSmith 做成本监控(参考之前的 LangSmith 实战那篇)
🎁 总结
| 🔑 核心记忆点 | |
|---|---|
| 发布时间 | 2026年4月23日,今天 |
| 代号 | Spud(土豆) |
| 最大技术突破 | 第一个从头重训练的 GPT-5 系列模型 |
| 架构 | 原生全模态(文本+图像+音频+视频统一处理) |
| 最强数字 | Terminal-Bench 82.7%(领先 Opus 4.7 13pp) |
| 最被低估的数字 | MRCR@1M 36.6% → 74.0%(长上下文质变) |
| 最需要警惕的数字 | 幻觉率 86%(Opus 4.7 的 2.4 倍) |
| API 定价 | $5/$30 per M Token(GPT-5.4 的 2 倍) |
| 与 Opus 4.7 的关系 | 不是同赛道竞争:GPT-5.5 执行,Opus 4.7 理解 |
| Altman 的定位 | “通往 AGI 前最后一个里程碑” |
GPT-5.5 是 OpenAI 押注 Agent 时代的最直接声明:他们认为未来 AI 的核心价值不在于"回答得多准确",而在于"能执行多复杂的任务"。Terminal-Bench 的领先和幻觉率的高企,恰恰是同一个训练决策的两面——为了执行能力,牺牲了一部分谨慎性。
这是一个合不合理的取舍,取决于你的场景。
📣 最后
如果这篇让你第一时间搞清楚了 GPT-5.5 的真实面貌:
- 👍点赞让更多人看到那个 86% 幻觉率
- ⭐收藏API 代码随时复制,上线前记得加验证层
- 💬评论参与投票,聊聊你的实际场景怎么用
- 🔔关注持续追踪前沿,一个正在学 AI 的大学生 👨🎓
📚相关阅读:
- 《Claude Opus 4.7 深度解析:SWE-bench Pro 64.3% 登顶,但它故意藏了一张更强的牌》
- 《GPT-Image-2 正式发布:文字渲染 99%,AI 生图进入生产基础设施时代》
📖参考资料:
- OpenAI 官方发布页(openai.com/index/introducing-gpt-5-5/,2026.04.23)
- Handy AI 分析:《Model Drop: GPT-5.5》(Jake Handy,2026.04.23)
- Lushbinary:《GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding Compared》
- ofox.ai:《GPT-5.5 Released: First Fully Retrained Base Model Since GPT-4.5》
- 网易科技:《凌晨突发!GPT-5.5正式上线:跑分更猛,价格翻倍,但这点不得不防》
- AI Insight:《GPT-5.5 深度解读》(2026.04.23)