news 2026/4/23 11:27:41

刚刚,Claude Opus 4.6 发布!碾压 GPT-5.2,顺手挖出 500 个安全漏洞

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
刚刚,Claude Opus 4.6 发布!碾压 GPT-5.2,顺手挖出 500 个安全漏洞

Anthropic 又来砸场子了。

几天前,他们在 GitHub 悄悄上架了一批 Claude Cowork 插件。

合同审查、合规检查、法律摘要,几个 Markdown 和 JSON 文件,没有任何宣传。

然后华尔街炸了。

周二一天,全球软件股蒸发 2850 亿美元。

Thomson Reuters 跌了 16%,创历史最大单日跌幅。LegalZoom 跌了 20%。高盛美股软件指数单日暴跌 6%,是去年四月关税危机以来最狠的一刀。

投资者的逻辑很简单。

Anthropic 不再只是卖 API 了,它开始直接做应用层。

那些原本需要 SaaS 年费才能干的活,现在一个 AI 插件就能搞定。

华尔街还没缓过来,Anthropic 今天又放了个大招。

Claude Opus 4.6,迄今最强的 Claude 模型,正式上线。


01|Elo 高出 144 分,胜率七三开

先看数据。

GDPval-AA 是一个评估 AI 在金融、法律等知识工作中表现的测试,由独立机构 Artificial Analysis 运营。

Opus 4.6拿到 1606 分的 Elo 评分,比 OpenAI 的GPT-5.2高出 144 分,比自家上一代Opus 4.5高出 190 分。

144 分的 Elo 差距意味着什么?换算成胜率,大约是 70% 对 30%。

Terminal-Bench 2.0,代码能力评测,Opus 4.6拿到 65.4%,刷新了所有模型的纪录。

Humanity's Last Exam,一个覆盖多学科的复杂推理测试,全行业最高分。

BrowseComp,测试模型在网上找冷门信息的能力,还是第一。

划重点,这些测试不少是独立机构跑的,不是 Anthropic 自己评的。


02|100 万 tokens 上下文

这是Opus系列第一次支持 100 万 tokens 上下文窗口。

AI 领域有个老大难的问题叫「context rot」。

你给模型喂的信息越多,它的表现就越差。信息一多,关键的那一条它可能就找不到了。

Anthropic 用了一个叫 MRCR v2 的测试来量化这件事。

在大量文本里藏 8 根「针」,看模型能找到多少。

Opus 4.6在 100 万 tokens 条件下得分 76%。

Sonnet 4.5同样条件下只有 18.5%。

三倍多的差距。

Anthropic 官方说这是上下文能力的「质变」。

这意味着,你可以把一整个项目的代码库、几十份合同、或者一整本书投喂给 Claude,它能在里面找到你要的东西。

准确率还相当高。


03|500 个安全漏洞,上线前「顺手」挖的

这可能是今天最值得关注的细节。

Opus 4.6正式发布之前,Anthropic 的前沿红队在沙盒环境里做了个测试。

给 Claude 一套标准的漏洞分析工具,Python、调试器、模糊测试器,但没给任何特定指令或专业知识。

就是「你自己看着办」。

Claude 在开源代码里找到了超过 500 个此前没人发现过的安全漏洞。

每一个都经过了 Anthropic 团队成员或外部安全研究员的验证。

这些漏洞覆盖了从系统崩溃到内存损坏的各种级别。

GhostScript 里有一个 PDF 处理漏洞,传统的模糊测试和手动分析都没发现,Claude 翻了项目的 Git 提交记录才找到。

找到之后,它还会主动检查代码库其他地方有没有类似问题。

Anthropic 红队负责人 Logan Graham 说:

「这是防守方和攻击方之间的竞赛,我们要尽快把工具交到防守方手里。」

硬币有两面。

能力越强,被滥用的风险也越大。

Anthropic 新增了六个网络安全探测器,专门监控恶意使用。

他们甚至在考虑上线实时拦截,直接屏蔽可疑流量。


04|从写代码到做 PPT

Opus 4.5发布的时候,Anthropic 的定位还是「最强编程模型」。

三个月后,Opus 4.6的想象力大了不少。

Claude Code 里现在可以组建「Agent 团队」。

多个 Agent 并行工作,各自负责一块,自动协调。

一个管前端,一个管 API,一个管数据迁移。像一个真正的开发团队。

Anthropic 产品负责人 Scott White 说:「过去一年,Claude 从一个完成小任务的工具,变成了可以把真正的工作交给它的东西。」

Office 工具的整合也跟上了。

Excel 里的 Claude 现在能处理非结构化数据,自动推断正确的结构,一次性完成多步骤修改。

新上线的 PowerPoint 集成让 Claude 能读取你的模板、字体、排版风格,直接在 PPT 里帮你做 PPT。

目前是预览版,面向 Max、Team 和企业用户开放。

Anthropic 用了一个词叫「vibe working」。

从 vibe coding 到 vibe working,他们想让 Claude 不只是程序员的工具,而是所有知识工作者的工具。


05|同一天,OpenAI 也扔了个炸弹

今天的舞台不只有 Anthropic。

就在Opus 4.6发布的同一时刻,OpenAI 放出了GPT-5.3-Codex,号称「迄今最强编程模型」,还说这是「第一个参与创造了自己的模型」。

就在几天前,OpenAI 刚发布了 Codex 桌面应用,Sam Altman 说这是 OpenAI 内部最受欢迎的产品。

卷起来了。

从数据看,Anthropic 目前势头更猛。

a16z 今年 1 月的企业 AI 调查显示,大约 40% 的企业已经在生产环境中使用 Anthropic,这个数字两年前几乎是零。

Claude Code 去年 5 月正式上线,6 个月后年化营收就破了 10 亿美元。

Anthropic 去年全年营收接近 100 亿美元,最新一轮融资估值 3500 亿美元。

这个速度,有点猛。


06|现在就能用

Claude Opus 4.6今天已经在claude.ai、API 和所有主流云平台上线。

API 模型名称是claude-opus-4-6

定价和之前一样,输入 5 美元/百万 tokens,输出 25 美元/百万 tokens。超过 20 万 tokens 的长上下文更贵一点,10/37.5 美元/百万 tokens。

一个小细节。

Anthropic 说Opus 4.6默认会「想得比较深」,在简单任务上可能显得有点慢。

如果觉得它想多了,可以用/effort把思考强度从 high 调到 medium。

可以开冲了。


跑分可以造假,但 500 个安全漏洞骗不了人。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 3:36:31

云南男子从起火车中救3人:实为过错方——为啥新能源汽车里面无法开窗-被撞后里面的人在干嘛?——新能源汽车为啥一撞击就容易起火?——新能源汽车到底是否具有安全性?——为何无法解决这个问题?——到底能否买

云南男子从起火车中救3人:实为过错方——为啥新能源汽车里面无法开窗-被撞后里面的人在干嘛?——新能源汽车为啥一撞击就容易起火?——新能源汽车到底是否具有安全性?——为何无法解决这个问题?——到底能否买 云南男子从起火车中救3人:实为过错方——为啥新能源汽车里面无…

作者头像 李华
网站建设 2026/4/16 23:02:48

PDF转长图工具来了!一键把几十页文档变成长图,手机查看太爽了

前言 在日常工作中,我们经常需要分享PDF文件,很多朋友选择把PDF转成图片。 可如果文件有多页,转换出来就是十几二十张散图,不仅发送麻烦,对方接收后还要一张张翻看。 其实最理想的方案是把整个PDF转成一张连贯的长图…

作者头像 李华
网站建设 2026/4/16 18:00:16

ClearerVoice-Studio开箱即用:一键提升语音清晰度的实战体验

ClearerVoice-Studio开箱即用:一键提升语音清晰度的实战体验 你有没有遇到过这些情况: 会议录音里夹杂着空调嗡鸣和键盘敲击声,听不清关键决策; 客户电话录音背景是嘈杂街道,转文字时错漏百出; 采访视频中…

作者头像 李华
网站建设 2026/4/21 11:51:28

ANIMATEDIFF PRO 效果展示:惊艳的电影级视频生成案例

ANIMATEDIFF PRO 效果展示:惊艳的电影级视频生成案例 1. 这不是“动图”,是能呼吸的电影画面 你有没有试过把一段文字输入AI,几秒钟后,屏幕上缓缓展开的不是静态图片,而是一段有光影流动、发丝飘动、海浪起伏、人物呼…

作者头像 李华