news 2026/4/25 1:49:03

GPT-5.5 深度解析:代号“土豆“,Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-5.5 深度解析:代号“土豆“,Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍

🔥 GPT-5.5 深度解析:代号"土豆",Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍

文章目录

  • 🔥 GPT-5.5 深度解析:代号"土豆",Terminal-Bench 82.7% 领跑,但它的幻觉率是 Opus 4.7 的 2.4 倍
    • 📖 前言:为什么叫"土豆",又为什么这次是真的重要
    • 🎯 速览:核心数据
    • 🏗️ 第一个重点:架构重建——为什么"重训练"这么重要
      • GPT-5 系列的两类版本
      • Agent 导向训练目标
    • 📊 第二个重点:五大核心能力逐一拆解
      • 能力一:Terminal-Bench 82.7%——Agent 工作流执行登顶
      • 能力二:长上下文 MRCR@1M:36.6% → 74.0%(跳跃 37 个百分点)
      • 能力三:GDPval 84.9%——44 种职业的知识工作能力
      • 能力四:Computer Use 78.7%——全桌面操作能力首次超越 Anthropic
      • 能力五:Token 效率提升——贵但不一定更贵
    • ⚠️ 第三个重点:幻觉率 86%——最不能忽视的数字
      • 数字本身
      • 为什么会出现这个矛盾?
      • 对开发者的实际影响
    • 🔄 第四个重点:与 Opus 4.7 的竞争关系
    • 🛠️ 开发者快速上手
    • 🎁 总结
    • 📣 最后

写在前面(2026.04.24 首发):北京时间 4 月 23 日深夜,OpenAI 正式发布 GPT-5.5。这是 GPT-5 系列第一个从头重新训练的版本(代号 Spud,土豆)——此前的 5.1/5.2/5.3/5.4 都是在同一基础模型上做后训练迭代,5.5 是真正的重训练,基础架构、预训练语料、Agent 目标全部重做。Terminal-Bench 2.0 以 82.7% 登顶,比 Opus 4.7 高 13 个百分点。但同时有一个数字让圈子里炸锅了:幻觉率 86%,是 Opus 4.7 的 2.4 倍

📌基本信息

  • 📅 发布时间:2026年4月23日
  • 🏢 出品:OpenAI
  • 🔖 代号:Spud(土豆)
  • 💰 API 定价:$5/$30 per M Token(GPT-5.4 的 2 倍)
  • 📖 上下文:1M Token(API 正式支持的 OpenAI 首款)
  • 🎯 定位:Agent 工作流旗舰,自主执行复杂多步骤任务
  • 👤 可用用户:ChatGPT Plus/Pro/Business/Enterprise

📖 前言:为什么叫"土豆",又为什么这次是真的重要

GPT-5 系列到现在出了很多版本:5.1、5.2、5.3、5.4。坦率说,这些版本对大多数用户来说感知不强——它们都是在同一个基础模型上做后训练迭代,就像在同一块面团上反复揉搓,形状会变,但面团本身没换。

GPT-5.5 不同:它是自 GPT-4.5 以来第一个完全重训练的基础模型。 架构改了,预训练语料换了,训练目标也从"生成高质量文本"转向了"完成 Agent 任务"。

代号 Spud(土豆)是 OpenAI 内部的工程绰号。土豆这种食物有意思的地方在于——普通,但扎实,做什么都能用。OpenAI 对 GPT-5.5 的期望,大概就是成为 2026 年 AI Agent 时代的"基础食材":不光鲜,但是可靠的底座。

Sam Altman 的措辞更加直接,他在发布后评论道,GPT-5.5 是"通往 AGI 前最后一个里程碑"。

这是一个不小的声明。


🎯 速览:核心数据

BenchmarkGPT-5.4GPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.075.1%82.7%🥇69.4%68.5%
GDPval(44 职业)~80%84.9%🥇~78%~82%
OSWorld-Verified(Computer Use)75.0%78.7%🥇~70%~71%
BrowseComp(搜索)~82%84.4%79.3%85.9%
SWE-bench Pro(真实 Bug)57.7%58.6%64.3%🥇54.2%
MRCR@1M(长上下文)36.6%74.0%32.2%~70%
MCP-Atlas(工具调用)~68%75.3%77.3%🥇
AA-Omniscience 幻觉率86%⚠️36%50%
Artificial Analysis 综合指数60🥇
API 定价(输入/输出)$2.5/$15$5/$30$5/$25

一眼看出来的格局:GPT-5.5 在执行类任务(Terminal-Bench、Computer Use、GDPval)全面领先;Opus 4.7 在代码理解类任务(SWE-bench Pro、MCP-Atlas)继续占优。这不是简单的你高我低,而是两个模型在不同赛道上各自领跑


🏗️ 第一个重点:架构重建——为什么"重训练"这么重要

GPT-5 系列的两类版本

理解这次发布,需要先区分两种迭代方式:

后训练迭代(GPT-5.1 ~ 5.4): 预训练基础模型不变 在其上做 RLHF、SFT、更强的 safety 对齐 就像在同一座房子里重新装修 → 改善表面行为,但能力天花板没变 完全重训练(GPT-5.5): 从头开始预训练 更新架构、更换语料、重定目标 就像推倒重建一栋新楼 → 能力天花板被重置,潜力更大

GPT-5.5 是原生全模态(Omnimodal)架构——文本、图像、音频、视频在同一个统一系统里处理,而不是事后拼接。 这与 GPT-4o 时代"语言模型 + 外挂多模态"的方式有根本区别。

Agent 导向训练目标

GPT-5.5 的训练目标不再是"生成高质量的下一个 Token",而是**“完成一个 Agent 任务”**。

这个区别非常具体:

传统语言模型训练目标: 给定前文,预测下一个词 → 优化的是单步生成质量 Agent 导向训练目标(GPT-5.5): 给定一个任务,最终任务完成了算成功,中途过程不重要 → 优化的是多步规划 + 工具调用 + 自我纠错的整体效果

OpenAI 将其描述为"一个能理解复杂目标、使用工具、检查自己的工作、并把多步骤任务执行到底的系统——不需要人在每个环节重新提示"。

这就是 Terminal-Bench 2.0 领先那么多的根本原因:Terminal-Bench 测的是"在命令行环境里,从理解任务到自主执行一整套复杂工作流的能力",这正是 Agent 导向训练最直接体现的场景。


📊 第二个重点:五大核心能力逐一拆解

能力一:Terminal-Bench 82.7%——Agent 工作流执行登顶

Terminal-Bench 2.0 是 2026 年最接近真实工程工作流的 Benchmark:

测试场景示例: 给一个代码仓库 + 一段需求描述 模型要自主: 1. 读懂需求 2. 找到相关代码 3. 做出修改 4. 运行测试 5. 修复测试失败 6. 整理 commit message 7. 全部通过才算完成 不允许中途人工介入,全部自主完成

GPT-5.5 的 82.7% vs Claude Opus 4.7 的 69.4%,差了 13 个百分点。这意味着在需要计划、迭代、工具协调的复杂命令行工作流上,GPT-5.5 明确超越了 Opus 4.7。

能力二:长上下文 MRCR@1M:36.6% → 74.0%(跳跃 37 个百分点)

GPT-5.5 在 OpenAI MRCR v2 8-needle 512K-1M 测试上从 36.6% 跳升到 74.0%,这是本次发布最被低估的数字。

这个 37 个百分点的提升对企业级应用的含义是:

之前(GPT-5.4,36.6%): 把整个合同文件(100 页)装进上下文 → 模型有 63% 的概率找不到关键条款 → "勉强可用",需要大量人工校验 现在(GPT-5.5,74.0%): 同样的任务 → 找到关键条款的概率超过 74% → "真正可部署"于合同审查、大型代码库审计、多文档综合分析

特别值得注意的是:Opus 4.7 在这个测试上只有 32.2%(因为 Tokenizer 变更导致的副作用),而 GPT-5.5 达到 74.0%。这意味着在"需要在超长文档里精准定位信息"这个场景,GPT-5.5 目前是最强的可用模型。

能力三:GDPval 84.9%——44 种职业的知识工作能力

GDPval 是一个非常接地气的 Benchmark:收集了 44 种职业(金融分析师、律师、医生、工程师……)的真实工作任务,让人类专业人员和 AI 各自完成,盲测评分。

GPT-5.5 在 84.9% 的比较中达到或超越了行业专业人员的水平,GPT-5.5 Pro 版本在 BrowseComp(网络研究测试)上达到 90.1%。

这不是说 AI 已经能替代这 44 个职业——测试的是"面对一个具体的工作任务,AI 的输出质量能达到专业人员水平吗",不是"整个职业的全部工作"。但 84.9% 这个数字,确实已经让很多人感到不安了。

能力四:Computer Use 78.7%——全桌面操作能力首次超越 Anthropic

GPT-5.5 在 OSWorld-Verified 上达到 78.7%(GPT-5.4 为 75.0%),这是 OpenAI 主流模型首次在全桌面电脑使用能力上超越 Anthropic

Computer Use 是指:给模型一个桌面截图,让它自主操作(点击、输入、拖拽)完成任务。这是 AI Agent 进入物理工作流的核心能力。

78.7% 意味着 10 次任务里,7-8 次能自主完成。距离"可以放心让 AI 在你的电脑上跑一整天"还有距离,但已经是生产可用的起点。

能力五:Token 效率提升——贵但不一定更贵

API 价格从 GPT-5.4 的 $2.5/$15 翻到了$5/$30,价格翻倍,让很多开发者叫苦。

但 OpenAI 的论据是:GPT-5.5 在真实线上服务中保持与 GPT-5.4 相同的每 Token 延迟,同时以更少的 Token 完成相同的 Codex 任务,从而降低了整体推理成本。

具体测试数据:同一组 Codex 任务,GPT-5.5 完成所用 Token 数平均减少约 40%。

换算下来:

GPT-5.4 完成一个 Codex 任务:10,000 tokens × $0.015/1K = $0.15 GPT-5.5 完成同一任务:6,000 tokens × $0.030/1K = $0.18 → 单价翻倍,但 Token 效率提升,实际成本只涨 20%

当然,这是 OpenAI 自己的测试数据。实际场景差异很大,需要开发者自己跑数据验证。


⚠️ 第三个重点:幻觉率 86%——最不能忽视的数字

这是整篇文章最重要的部分,也是大多数发布稿都轻描淡写的地方。

数字本身

Artificial Analysis 用 AA-Omniscience 做了独立第三方测试:

模型知识准确率幻觉率
GPT-5.557%(最高)86%⚠️
Gemini 3.1 Pro~52%50%
Claude Opus 4.7~48%36%(最低)

GPT-5.5 的准确率是所有模型中最高的,达到 57%,意味着它在回忆事实方面确实优于所有竞品。然而它的幻觉率高达 86%。作为对比,Claude Opus 4.7 的幻觉率是 36%,Gemini 3.1 Pro 是 50%。换句话说,GPT-5.5 知道的东西确实更多,但当它不确定答案时,它选择闭嘴的概率远低于对手。它更倾向于给出一个回答,哪怕这个回答可能是错的。

为什么会出现这个矛盾?

这背后是一个深层的训练目标权衡:

Agent 导向训练的副作用: 目标是"把任务做完" → 训练中奖励"给出答案、完成任务"的行为 → 惩罚"说不知道、停下来"的行为 长期下来,模型学会了: "与其说不知道让任务失败,不如给个答案继续往下走" 这在 Agent 场景里有时是好的(减少中断) 但在需要高可靠性的场景里,这是致命的

Opus 4.7 的训练目标相对偏向"更诚实不乱编"——它的 BrowseComp 成绩也因此略低(宁可说不知道也不乱答)。这是两种不同的价值取舍,不是简单的好坏之分。

对开发者的实际影响

这个数字意味着什么?

# 高幻觉率场景下的代码(不建议直接用 GPT-5.5):# ❌ 危险用法:让 GPT-5.5 直接生成医疗诊断报告report=gpt55.complete("根据这些症状给出诊断建议")# → 幻觉率 86%,报告里的数据引用可能是虚构的# ✅ 安全用法:GPT-5.5 做执行,加入验证层result=gpt55.complete("完成这个数据处理任务")verified=claude_opus.complete(f"验证以下内容的准确性:{result}")

适合 GPT-5.5 的场景:执行确定性的工程任务(Terminal 操作、代码生成、Computer Use),这类场景的输出可以通过运行/测试来验证,幻觉率的影响被"可执行性"这道防线过滤了。

不适合 GPT-5.5 的场景:医疗诊断、法律分析、事实核查、金融报告——任何"无法自动验证"且"错了有后果"的场景。


🔄 第四个重点:与 Opus 4.7 的竞争关系

一周之内,Anthropic 和 OpenAI 各发布了一款旗舰:

  • 4月16日:Claude Opus 4.7(SWE-bench Pro 64.3%,代码理解领跑)
  • 4月23日:GPT-5.5(Terminal-Bench 82.7%,Agent 执行领跑)

这不是同一个赛道上的竞争,而是两个模型在不同能力维度上各自建立优势

GPT-5.5 领先的维度: ✅ Terminal-Bench(计划 + 工具协调 + 迭代执行) ✅ Computer Use(桌面操作) ✅ GDPval(知识工作广度) ✅ 长上下文检索(MRCR@1M 74.0%) Claude Opus 4.7 领先的维度: ✅ SWE-bench Pro(真实 Bug 修复) ✅ MCP-Atlas(工具调用精度) ✅ 幻觉率(36% vs 86%) ✅ 多语言理解(MMMLU 91.5% vs 83.2%) ✅ 视觉准确率(XBOW 98.5%)

业界的共识正在形成:把 Agent 任务和 Computer Use 路由给 GPT-5.5,把复杂代码重构和代码审查路由给 Opus 4.7,把简单任务交给更便宜的模型(GPT-5.4 mini 或 Claude Haiku 4.5)。

多模型路由正在成为 2026 年 Agent 系统的标准架构,而不是"找一个最强的模型包打天下"。


🛠️ 开发者快速上手

fromopenaiimportOpenAI client=OpenAI(api_key="sk-...")# GPT-5.5 标准调用response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"system","content":"你是一个 Agent 任务执行专家"},{"role":"user","content":"分析这个 Python 项目的性能瓶颈并给出优化方案"}],max_tokens=4096,)print(response.choices[0].message.content)# GPT-5.5 + 工具调用(最适合的使用方式)tools=[{"type":"function","function":{"name":"execute_shell","description":"在沙箱环境中执行 shell 命令","parameters":{"type":"object","properties":{"command":{"type":"string","description":"要执行的命令"}},"required":["command"]}}}]response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":"运行测试套件并报告失败的测试"}],tools=tools,tool_choice="auto",)# GPT-5.5 1M Token 长上下文(全新能力)withopen("large_codebase.txt")asf:codebase=f.read()# 最大 ~75 万字response=client.chat.completions.create(model="gpt-5.5",messages=[{"role":"user","content":f"分析以下代码库中所有的安全漏洞:\n\n{codebase}"}],max_tokens=8192,)

注意事项

  • API Context Codex 模式下上下文为 400K,全 API 模式为 1M
  • 输出 Token 价格 $30/M,Agent 场景输出 Token 多,务必设置max_tokens上限
  • 建议配合 LangSmith 做成本监控(参考之前的 LangSmith 实战那篇)

🎁 总结

🔑 核心记忆点
发布时间2026年4月23日,今天
代号Spud(土豆)
最大技术突破第一个从头重训练的 GPT-5 系列模型
架构原生全模态(文本+图像+音频+视频统一处理)
最强数字Terminal-Bench 82.7%(领先 Opus 4.7 13pp)
最被低估的数字MRCR@1M 36.6% → 74.0%(长上下文质变)
最需要警惕的数字幻觉率 86%(Opus 4.7 的 2.4 倍)
API 定价$5/$30 per M Token(GPT-5.4 的 2 倍)
与 Opus 4.7 的关系不是同赛道竞争:GPT-5.5 执行,Opus 4.7 理解
Altman 的定位“通往 AGI 前最后一个里程碑”

GPT-5.5 是 OpenAI 押注 Agent 时代的最直接声明:他们认为未来 AI 的核心价值不在于"回答得多准确",而在于"能执行多复杂的任务"。Terminal-Bench 的领先和幻觉率的高企,恰恰是同一个训练决策的两面——为了执行能力,牺牲了一部分谨慎性

这是一个合不合理的取舍,取决于你的场景。


📣 最后

如果这篇让你第一时间搞清楚了 GPT-5.5 的真实面貌:

  • 👍点赞让更多人看到那个 86% 幻觉率
  • 收藏API 代码随时复制,上线前记得加验证层
  • 💬评论参与投票,聊聊你的实际场景怎么用
  • 🔔关注持续追踪前沿,一个正在学 AI 的大学生 👨‍🎓

📚相关阅读

  • 《Claude Opus 4.7 深度解析:SWE-bench Pro 64.3% 登顶,但它故意藏了一张更强的牌》
  • 《GPT-Image-2 正式发布:文字渲染 99%,AI 生图进入生产基础设施时代》

📖参考资料

  • OpenAI 官方发布页(openai.com/index/introducing-gpt-5-5/,2026.04.23)
  • Handy AI 分析:《Model Drop: GPT-5.5》(Jake Handy,2026.04.23)
  • Lushbinary:《GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding Compared》
  • ofox.ai:《GPT-5.5 Released: First Fully Retrained Base Model Since GPT-4.5》
  • 网易科技:《凌晨突发!GPT-5.5正式上线:跑分更猛,价格翻倍,但这点不得不防》
  • AI Insight:《GPT-5.5 深度解读》(2026.04.23)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 1:43:47

用 ChatGPT Image 2.0 做社媒视频封面,点击率直接翻倍的玩法

很多人做短视频,总在卷内容,但忽略了一个更关键的点——封面决定点击率。 现在用 ChatGPT Images 2.0,可以把“做封面”这件事彻底提效。 一、为什么AI封面更容易爆? 传统封面制作的问题: 不统一(风格不…

作者头像 李华
网站建设 2026/4/25 1:42:18

从零实战:2026 SMT工厂数字孪生开发选型

本指南为从零开始的SMT工厂规划一条渐进式选型路线。第一阶段:内部启蒙与目标锚定(1-2周)组建核心战队:生产运营、设备/工艺、IT、项目发起人。定义试点项目:选择“一条关键产线的实时状态监控”或“新厂区布局仿真”等…

作者头像 李华
网站建设 2026/4/25 1:33:25

锁相放大器的应用场景探析

锁相放大器作为一种高精度、高灵敏度的微弱信号检测仪器,凭借其卓越的噪声抑制能力和频率选择性,已成为现代科学研究与工程检测中不可或缺的核心工具。其工作原理基于相关检测技术,通过将输入信号与参考信号进行相敏检波,结合低通…

作者头像 李华
网站建设 2026/4/25 1:21:35

Mac Mouse Fix终极指南:让普通鼠标在macOS上焕发新生

Mac Mouse Fix终极指南:让普通鼠标在macOS上焕发新生 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 还在为macOS上鼠标滚轮卡顿、按…

作者头像 李华