GPT-5.5 深度解析：代号“土豆“，Terminal-Bench 82.7% 领跑，但它的幻觉率是 Opus 4.7 的 2.4 倍-深圳市維司達科技有限公司

🔥 GPT-5.5 深度解析：代号"土豆"，Terminal-Bench 82.7% 领跑，但它的幻觉率是 Opus 4.7 的 2.4 倍

文章目录

🔥 GPT-5.5 深度解析：代号"土豆"，Terminal-Bench 82.7% 领跑，但它的幻觉率是 Opus 4.7 的 2.4 倍
- 📖 前言：为什么叫"土豆"，又为什么这次是真的重要
- 🎯 速览：核心数据
- 🏗️ 第一个重点：架构重建——为什么"重训练"这么重要
- - GPT-5 系列的两类版本
  - Agent 导向训练目标
- 📊 第二个重点：五大核心能力逐一拆解
- - 能力一：Terminal-Bench 82.7%——Agent 工作流执行登顶
  - 能力二：长上下文 MRCR@1M：36.6% → 74.0%（跳跃 37 个百分点）
  - 能力三：GDPval 84.9%——44 种职业的知识工作能力
  - 能力四：Computer Use 78.7%——全桌面操作能力首次超越 Anthropic
  - 能力五：Token 效率提升——贵但不一定更贵
- ⚠️ 第三个重点：幻觉率 86%——最不能忽视的数字
- - 数字本身
  - 为什么会出现这个矛盾？
  - 对开发者的实际影响
- 🔄 第四个重点：与 Opus 4.7 的竞争关系
- 🛠️ 开发者快速上手
- 🎁 总结
- 📣 最后

写在前面（2026.04.24 首发）：北京时间 4 月 23 日深夜，OpenAI 正式发布 GPT-5.5。这是 GPT-5 系列第一个从头重新训练的版本（代号 Spud，土豆）——此前的 5.1/5.2/5.3/5.4 都是在同一基础模型上做后训练迭代，5.5 是真正的重训练，基础架构、预训练语料、Agent 目标全部重做。Terminal-Bench 2.0 以 82.7% 登顶，比 Opus 4.7 高 13 个百分点。但同时有一个数字让圈子里炸锅了：幻觉率 86%，是 Opus 4.7 的 2.4 倍。

📌基本信息
📅 发布时间：2026年4月23日
🏢 出品：OpenAI
🔖 代号：Spud（土豆）
💰 API 定价：$5/$30 per M Token（GPT-5.4 的 2 倍）
📖 上下文：1M Token（API 正式支持的 OpenAI 首款）
🎯 定位：Agent 工作流旗舰，自主执行复杂多步骤任务
👤 可用用户：ChatGPT Plus/Pro/Business/Enterprise

📖 前言：为什么叫"土豆"，又为什么这次是真的重要

GPT-5 系列到现在出了很多版本：5.1、5.2、5.3、5.4。坦率说，这些版本对大多数用户来说感知不强——它们都是在同一个基础模型上做后训练迭代，就像在同一块面团上反复揉搓，形状会变，但面团本身没换。

GPT-5.5 不同：它是自 GPT-4.5 以来第一个完全重训练的基础模型。架构改了，预训练语料换了，训练目标也从"生成高质量文本"转向了"完成 Agent 任务"。

代号 Spud（土豆）是 OpenAI 内部的工程绰号。土豆这种食物有意思的地方在于——普通，但扎实，做什么都能用。OpenAI 对 GPT-5.5 的期望，大概就是成为 2026 年 AI Agent 时代的"基础食材"：不光鲜，但是可靠的底座。

Sam Altman 的措辞更加直接，他在发布后评论道，GPT-5.5 是"通往 AGI 前最后一个里程碑"。

这是一个不小的声明。

🎯 速览：核心数据

Benchmark	GPT-5.4	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	75.1%	82.7%🥇	69.4%	68.5%
GDPval（44 职业）	~80%	84.9%🥇	~78%	~82%
OSWorld-Verified（Computer Use）	75.0%	78.7%🥇	~70%	~71%
BrowseComp（搜索）	~82%	84.4%	79.3%	85.9%
SWE-bench Pro（真实 Bug）	57.7%	58.6%	64.3%🥇	54.2%
MRCR@1M（长上下文）	36.6%	74.0%	32.2%	~70%
MCP-Atlas（工具调用）	~68%	75.3%	77.3%🥇	—
AA-Omniscience 幻觉率	—	86%⚠️	36%	50%
Artificial Analysis 综合指数	—	60🥇	—	—
API 定价（输入/输出）	$2.5/$15	$5/$30	$5/$25	—

一眼看出来的格局：GPT-5.5 在执行类任务（Terminal-Bench、Computer Use、GDPval）全面领先；Opus 4.7 在代码理解类任务（SWE-bench Pro、MCP-Atlas）继续占优。这不是简单的你高我低，而是两个模型在不同赛道上各自领跑。

🏗️ 第一个重点：架构重建——为什么"重训练"这么重要

GPT-5 系列的两类版本

理解这次发布，需要先区分两种迭代方式：

后训练迭代（GPT-5.1 ~ 5.4）： 预训练基础模型不变 在其上做 RLHF、SFT、更强的 safety 对齐 就像在同一座房子里重新装修 → 改善表面行为，但能力天花板没变 完全重训练（GPT-5.5）： 从头开始预训练 更新架构、更换语料、重定目标 就像推倒重建一栋新楼 → 能力天花板被重置，潜力更大

GPT-5.5 是原生全模态（Omnimodal）架构——文本、图像、音频、视频在同一个统一系统里处理，而不是事后拼接。这与 GPT-4o 时代"语言模型 + 外挂多模态"的方式有根本区别。

Agent 导向训练目标

GPT-5.5 的训练目标不再是"生成高质量的下一个 Token"，而是**“完成一个 Agent 任务”**。

这个区别非常具体：

传统语言模型训练目标： 给定前文，预测下一个词 → 优化的是单步生成质量 Agent 导向训练目标（GPT-5.5）： 给定一个任务，最终任务完成了算成功，中途过程不重要 → 优化的是多步规划 + 工具调用 + 自我纠错的整体效果

OpenAI 将其描述为"一个能理解复杂目标、使用工具、检查自己的工作、并把多步骤任务执行到底的系统——不需要人在每个环节重新提示"。

这就是 Terminal-Bench 2.0 领先那么多的根本原因：Terminal-Bench 测的是"在命令行环境里，从理解任务到自主执行一整套复杂工作流的能力"，这正是 Agent 导向训练最直接体现的场景。

📊 第二个重点：五大核心能力逐一拆解

能力一：Terminal-Bench 82.7%——Agent 工作流执行登顶

Terminal-Bench 2.0 是 2026 年最接近真实工程工作流的 Benchmark：

测试场景示例： 给一个代码仓库 + 一段需求描述 模型要自主： 1. 读懂需求 2. 找到相关代码 3. 做出修改 4. 运行测试 5. 修复测试失败 6. 整理 commit message 7. 全部通过才算完成 不允许中途人工介入，全部自主完成

GPT-5.5 的 82.7% vs Claude Opus 4.7 的 69.4%，差了 13 个百分点。这意味着在需要计划、迭代、工具协调的复杂命令行工作流上，GPT-5.5 明确超越了 Opus 4.7。

能力二：长上下文 MRCR@1M：36.6% → 74.0%（跳跃 37 个百分点）

GPT-5.5 在 OpenAI MRCR v2 8-needle 512K-1M 测试上从 36.6% 跳升到 74.0%，这是本次发布最被低估的数字。

这个 37 个百分点的提升对企业级应用的含义是：

之前（GPT-5.4，36.6%）： 把整个合同文件（100 页）装进上下文 → 模型有 63% 的概率找不到关键条款 → "勉强可用"，需要大量人工校验 现在（GPT-5.5，74.0%）： 同样的任务 → 找到关键条款的概率超过 74% → "真正可部署"于合同审查、大型代码库审计、多文档综合分析

特别值得注意的是：Opus 4.7 在这个测试上只有 32.2%（因为 Tokenizer 变更导致的副作用），而 GPT-5.5 达到 74.0%。这意味着在"需要在超长文档里精准定位信息"这个场景，GPT-5.5 目前是最强的可用模型。

能力三：GDPval 84.9%——44 种职业的知识工作能力

GDPval 是一个非常接地气的 Benchmark：收集了 44 种职业（金融分析师、律师、医生、工程师……）的真实工作任务，让人类专业人员和 AI 各自完成，盲测评分。

GPT-5.5 在 84.9% 的比较中达到或超越了行业专业人员的水平，GPT-5.5 Pro 版本在 BrowseComp（网络研究测试）上达到 90.1%。

这不是说 AI 已经能替代这 44 个职业——测试的是"面对一个具体的工作任务，AI 的输出质量能达到专业人员水平吗"，不是"整个职业的全部工作"。但 84.9% 这个数字，确实已经让很多人感到不安了。

能力四：Computer Use 78.7%——全桌面操作能力首次超越 Anthropic

GPT-5.5 在 OSWorld-Verified 上达到 78.7%（GPT-5.4 为 75.0%），这是 OpenAI 主流模型首次在全桌面电脑使用能力上超越 Anthropic。

Computer Use 是指：给模型一个桌面截图，让它自主操作（点击、输入、拖拽）完成任务。这是 AI Agent 进入物理工作流的核心能力。

78.7% 意味着 10 次任务里，7-8 次能自主完成。距离"可以放心让 AI 在你的电脑上跑一整天"还有距离，但已经是生产可用的起点。

能力五：Token 效率提升——贵但不一定更贵

API 价格从 GPT-5.4 的 $2.5/$15 翻到了$5/$30，价格翻倍，让很多开发者叫苦。

但 OpenAI 的论据是：GPT-5.5 在真实线上服务中保持与 GPT-5.4 相同的每 Token 延迟，同时以更少的 Token 完成相同的 Codex 任务，从而降低了整体推理成本。

具体测试数据：同一组 Codex 任务，GPT-5.5 完成所用 Token 数平均减少约 40%。

换算下来：

GPT-5.4 完成一个 Codex 任务：10,000 tokens × $0.015/1K = $0.15 GPT-5.5 完成同一任务：6,000 tokens × $0.030/1K = $0.18 → 单价翻倍，但 Token 效率提升，实际成本只涨 20%

当然，这是 OpenAI 自己的测试数据。实际场景差异很大，需要开发者自己跑数据验证。

⚠️ 第三个重点：幻觉率 86%——最不能忽视的数字

这是整篇文章最重要的部分，也是大多数发布稿都轻描淡写的地方。

数字本身

Artificial Analysis 用 AA-Omniscience 做了独立第三方测试：

模型	知识准确率	幻觉率
GPT-5.5	57%（最高）	86%⚠️
Gemini 3.1 Pro	~52%	50%
Claude Opus 4.7	~48%	36%（最低）

GPT-5.5 的准确率是所有模型中最高的，达到 57%，意味着它在回忆事实方面确实优于所有竞品。然而它的幻觉率高达 86%。作为对比，Claude Opus 4.7 的幻觉率是 36%，Gemini 3.1 Pro 是 50%。换句话说，GPT-5.5 知道的东西确实更多，但当它不确定答案时，它选择闭嘴的概率远低于对手。它更倾向于给出一个回答，哪怕这个回答可能是错的。

为什么会出现这个矛盾？

这背后是一个深层的训练目标权衡：

Agent 导向训练的副作用： 目标是"把任务做完" → 训练中奖励"给出答案、完成任务"的行为 → 惩罚"说不知道、停下来"的行为 长期下来，模型学会了： "与其说不知道让任务失败，不如给个答案继续往下走" 这在 Agent 场景里有时是好的（减少中断） 但在需要高可靠性的场景里，这是致命的

Opus 4.7 的训练目标相对偏向"更诚实不乱编"——它的 BrowseComp 成绩也因此略低（宁可说不知道也不乱答）。这是两种不同的价值取舍，不是简单的好坏之分。

对开发者的实际影响

这个数字意味着什么？

# 高幻觉率场景下的代码（不建议直接用 GPT-5.5）：# ❌ 危险用法：让 GPT-5.5 直接生成医疗诊断报告report=gpt55.complete("根据这些症状给出诊断建议")# → 幻觉率 86%，报告里的数据引用可能是虚构的# ✅ 安全用法：GPT-5.5 做执行，加入验证层result=gpt55.complete("完成这个数据处理任务")verified=claude_opus.complete(f"验证以下内容的准确性：{result}")

适合 GPT-5.5 的场景：执行确定性的工程任务（Terminal 操作、代码生成、Computer Use），这类场景的输出可以通过运行/测试来验证，幻觉率的影响被"可执行性"这道防线过滤了。

不适合 GPT-5.5 的场景：医疗诊断、法律分析、事实核查、金融报告——任何"无法自动验证"且"错了有后果"的场景。

🔄 第四个重点：与 Opus 4.7 的竞争关系

一周之内，Anthropic 和 OpenAI 各发布了一款旗舰：

4月16日：Claude Opus 4.7（SWE-bench Pro 64.3%，代码理解领跑）
4月23日：GPT-5.5（Terminal-Bench 82.7%，Agent 执行领跑）

这不是同一个赛道上的竞争，而是两个模型在不同能力维度上各自建立优势：

GPT-5.5 领先的维度： ✅ Terminal-Bench（计划 + 工具协调 + 迭代执行） ✅ Computer Use（桌面操作） ✅ GDPval（知识工作广度） ✅ 长上下文检索（MRCR@1M 74.0%） Claude Opus 4.7 领先的维度： ✅ SWE-bench Pro（真实 Bug 修复） ✅ MCP-Atlas（工具调用精度） ✅ 幻觉率（36% vs 86%） ✅ 多语言理解（MMMLU 91.5% vs 83.2%） ✅ 视觉准确率（XBOW 98.5%）

业界的共识正在形成：把 Agent 任务和 Computer Use 路由给 GPT-5.5，把复杂代码重构和代码审查路由给 Opus 4.7，把简单任务交给更便宜的模型（GPT-5.4 mini 或 Claude Haiku 4.5）。

多模型路由正在成为 2026 年 Agent 系统的标准架构，而不是"找一个最强的模型包打天下"。

🛠️ 开发者快速上手

fromopenaiimportOpenAI client=OpenAI(api_key="sk-...")# GPT-5.5 标准调用response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"system","content":"你是一个 Agent 任务执行专家"},{"role":"user","content":"分析这个 Python 项目的性能瓶颈并给出优化方案"}],max_tokens=4096,)print(response.choices[0].message.content)# GPT-5.5 + 工具调用（最适合的使用方式）tools=[{"type":"function","function":{"name":"execute_shell","description":"在沙箱环境中执行 shell 命令","parameters":{"type":"object","properties":{"command":{"type":"string","description":"要执行的命令"}},"required":["command"]}}}]response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":"运行测试套件并报告失败的测试"}],tools=tools,tool_choice="auto",)# GPT-5.5 1M Token 长上下文（全新能力）withopen("large_codebase.txt")asf:codebase=f.read()# 最大 ~75 万字response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":f"分析以下代码库中所有的安全漏洞：\n\n{codebase}"}],max_tokens=8192,)

注意事项：

API Context Codex 模式下上下文为 400K，全 API 模式为 1M
输出 Token 价格 $30/M，Agent 场景输出 Token 多，务必设置max_tokens上限
建议配合 LangSmith 做成本监控（参考之前的 LangSmith 实战那篇）

🎁 总结

🔑 核心记忆点
发布时间	2026年4月23日，今天
代号	Spud（土豆）
最大技术突破	第一个从头重训练的 GPT-5 系列模型
架构	原生全模态（文本+图像+音频+视频统一处理）
最强数字	Terminal-Bench 82.7%（领先 Opus 4.7 13pp）
最被低估的数字	MRCR@1M 36.6% → 74.0%（长上下文质变）
最需要警惕的数字	幻觉率 86%（Opus 4.7 的 2.4 倍）
API 定价	$5/$30 per M Token（GPT-5.4 的 2 倍）
与 Opus 4.7 的关系	不是同赛道竞争：GPT-5.5 执行，Opus 4.7 理解
Altman 的定位	“通往 AGI 前最后一个里程碑”

GPT-5.5 是 OpenAI 押注 Agent 时代的最直接声明：他们认为未来 AI 的核心价值不在于"回答得多准确"，而在于"能执行多复杂的任务"。Terminal-Bench 的领先和幻觉率的高企，恰恰是同一个训练决策的两面——为了执行能力，牺牲了一部分谨慎性。

这是一个合不合理的取舍，取决于你的场景。

📣 最后

如果这篇让你第一时间搞清楚了 GPT-5.5 的真实面貌：

👍点赞让更多人看到那个 86% 幻觉率
⭐收藏API 代码随时复制，上线前记得加验证层
💬评论参与投票，聊聊你的实际场景怎么用
🔔关注持续追踪前沿，一个正在学 AI 的大学生 👨‍🎓

📚相关阅读：
《Claude Opus 4.7 深度解析：SWE-bench Pro 64.3% 登顶，但它故意藏了一张更强的牌》
《GPT-Image-2 正式发布：文字渲染 99%，AI 生图进入生产基础设施时代》
📖参考资料：
OpenAI 官方发布页（openai.com/index/introducing-gpt-5-5/，2026.04.23）
Handy AI 分析：《Model Drop: GPT-5.5》（Jake Handy，2026.04.23）
Lushbinary：《GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding Compared》
ofox.ai：《GPT-5.5 Released: First Fully Retrained Base Model Since GPT-4.5》
网易科技：《凌晨突发！GPT-5.5正式上线：跑分更猛，价格翻倍，但这点不得不防》
AI Insight：《GPT-5.5 深度解读》（2026.04.23）