刚刚，Claude Opus 4.6 发布！碾压 GPT-5.2，顺手挖出 500 个安全漏洞-深圳市維司達科技有限公司

Anthropic 又来砸场子了。

几天前，他们在 GitHub 悄悄上架了一批 Claude Cowork 插件。

合同审查、合规检查、法律摘要，几个 Markdown 和 JSON 文件，没有任何宣传。

然后华尔街炸了。

周二一天，全球软件股蒸发 2850 亿美元。

Thomson Reuters 跌了 16%，创历史最大单日跌幅。LegalZoom 跌了 20%。高盛美股软件指数单日暴跌 6%，是去年四月关税危机以来最狠的一刀。

投资者的逻辑很简单。

Anthropic 不再只是卖 API 了，它开始直接做应用层。

那些原本需要 SaaS 年费才能干的活，现在一个 AI 插件就能搞定。

华尔街还没缓过来，Anthropic 今天又放了个大招。

Claude Opus 4.6，迄今最强的 Claude 模型，正式上线。

01｜Elo 高出 144 分，胜率七三开

先看数据。

GDPval-AA 是一个评估 AI 在金融、法律等知识工作中表现的测试，由独立机构 Artificial Analysis 运营。

Opus 4.6拿到 1606 分的 Elo 评分，比 OpenAI 的GPT-5.2高出 144 分，比自家上一代Opus 4.5高出 190 分。

144 分的 Elo 差距意味着什么？换算成胜率，大约是 70% 对 30%。

Terminal-Bench 2.0，代码能力评测，Opus 4.6拿到 65.4%，刷新了所有模型的纪录。

Humanity's Last Exam，一个覆盖多学科的复杂推理测试，全行业最高分。

BrowseComp，测试模型在网上找冷门信息的能力，还是第一。

划重点，这些测试不少是独立机构跑的，不是 Anthropic 自己评的。

02｜100 万 tokens 上下文

这是Opus系列第一次支持 100 万 tokens 上下文窗口。

AI 领域有个老大难的问题叫「context rot」。

你给模型喂的信息越多，它的表现就越差。信息一多，关键的那一条它可能就找不到了。

Anthropic 用了一个叫 MRCR v2 的测试来量化这件事。

在大量文本里藏 8 根「针」，看模型能找到多少。

Opus 4.6在 100 万 tokens 条件下得分 76%。

Sonnet 4.5同样条件下只有 18.5%。

三倍多的差距。

Anthropic 官方说这是上下文能力的「质变」。

这意味着，你可以把一整个项目的代码库、几十份合同、或者一整本书投喂给 Claude，它能在里面找到你要的东西。

准确率还相当高。

03｜500 个安全漏洞，上线前「顺手」挖的

这可能是今天最值得关注的细节。

Opus 4.6正式发布之前，Anthropic 的前沿红队在沙盒环境里做了个测试。

给 Claude 一套标准的漏洞分析工具，Python、调试器、模糊测试器，但没给任何特定指令或专业知识。

就是「你自己看着办」。

Claude 在开源代码里找到了超过 500 个此前没人发现过的安全漏洞。

每一个都经过了 Anthropic 团队成员或外部安全研究员的验证。

这些漏洞覆盖了从系统崩溃到内存损坏的各种级别。

GhostScript 里有一个 PDF 处理漏洞，传统的模糊测试和手动分析都没发现，Claude 翻了项目的 Git 提交记录才找到。

找到之后，它还会主动检查代码库其他地方有没有类似问题。

Anthropic 红队负责人 Logan Graham 说：

「这是防守方和攻击方之间的竞赛，我们要尽快把工具交到防守方手里。」

硬币有两面。

能力越强，被滥用的风险也越大。

Anthropic 新增了六个网络安全探测器，专门监控恶意使用。

他们甚至在考虑上线实时拦截，直接屏蔽可疑流量。

04｜从写代码到做 PPT

Opus 4.5发布的时候，Anthropic 的定位还是「最强编程模型」。

三个月后，Opus 4.6的想象力大了不少。

Claude Code 里现在可以组建「Agent 团队」。

多个 Agent 并行工作，各自负责一块，自动协调。

一个管前端，一个管 API，一个管数据迁移。像一个真正的开发团队。

Anthropic 产品负责人 Scott White 说：「过去一年，Claude 从一个完成小任务的工具，变成了可以把真正的工作交给它的东西。」

Office 工具的整合也跟上了。

Excel 里的 Claude 现在能处理非结构化数据，自动推断正确的结构，一次性完成多步骤修改。

新上线的 PowerPoint 集成让 Claude 能读取你的模板、字体、排版风格，直接在 PPT 里帮你做 PPT。

目前是预览版，面向 Max、Team 和企业用户开放。

Anthropic 用了一个词叫「vibe working」。

从 vibe coding 到 vibe working，他们想让 Claude 不只是程序员的工具，而是所有知识工作者的工具。

05｜同一天，OpenAI 也扔了个炸弹

今天的舞台不只有 Anthropic。

就在Opus 4.6发布的同一时刻，OpenAI 放出了GPT-5.3-Codex，号称「迄今最强编程模型」，还说这是「第一个参与创造了自己的模型」。

就在几天前，OpenAI 刚发布了 Codex 桌面应用，Sam Altman 说这是 OpenAI 内部最受欢迎的产品。

卷起来了。

从数据看，Anthropic 目前势头更猛。

a16z 今年 1 月的企业 AI 调查显示，大约 40% 的企业已经在生产环境中使用 Anthropic，这个数字两年前几乎是零。

Claude Code 去年 5 月正式上线，6 个月后年化营收就破了 10 亿美元。

Anthropic 去年全年营收接近 100 亿美元，最新一轮融资估值 3500 亿美元。

这个速度，有点猛。

06｜现在就能用

Claude Opus 4.6今天已经在claude.ai、API 和所有主流云平台上线。

API 模型名称是claude-opus-4-6。

定价和之前一样，输入 5 美元/百万 tokens，输出 25 美元/百万 tokens。超过 20 万 tokens 的长上下文更贵一点，10/37.5 美元/百万 tokens。

一个小细节。

Anthropic 说Opus 4.6默认会「想得比较深」，在简单任务上可能显得有点慢。

如果觉得它想多了，可以用/effort把思考强度从 high 调到 medium。

可以开冲了。

跑分可以造假，但 500 个安全漏洞骗不了人。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。
关注「AI信息Gap」，让 AI 成为你的外挂。

刚刚，Claude Opus 4.6 发布！碾压 GPT-5.2，顺手挖出 500 个安全漏洞

01｜Elo 高出 144 分，胜率七三开

02｜100 万 tokens 上下文

03｜500 个安全漏洞，上线前「顺手」挖的

04｜从写代码到做 PPT

05｜同一天，OpenAI 也扔了个炸弹

06｜现在就能用

云南男子从起火车中救3人:实为过错方——为啥新能源汽车里面无法开窗-被撞后里面的人在干嘛？——新能源汽车为啥一撞击就容易起火？——新能源汽车到底是否具有安全性？——为何无法解决这个问题？——到底能否买

PDF转长图工具来了！一键把几十页文档变成长图，手机查看太爽了

ClearerVoice-Studio开箱即用：一键提升语音清晰度的实战体验

ANIMATEDIFF PRO 效果展示：惊艳的电影级视频生成案例

GLM-4v-9b设计行业实战：UI截图功能说明生成、海报文案建议、配色方案图文分析

【Linux系统编程】（二十六）一文吃透 Ext 系列文件系统软硬链接：原理、实战与底层逻辑揭秘