Anthropic重磅研究：AI终极风险不是觉醒，而是随机崩溃-深圳市維司達科技有限公司

超强人工智能的终极风险或许不是处心积虑的叛变，而是它会在逻辑的迷宫里把自己绕成一团不可预测的乱麻。

Anthropic、EPFL和爱丁堡大学的研究团队最新重磅研究揭开了模型规模、任务复杂度与失控风险之间的诡谲关系。

研究发现，随着推理步数增加，AI更容易表现出一种被称为不一致性的随机混乱，不像科幻小说中描绘的那样，它会觉醒，然后坚定执行某个错误目标，而是在海量计算中迷失了自我。

智能失败底色由偏置与随机崩溃构成

我们习惯把人工智能的风险想象成某种蓄谋已久的恶意。

这就像一名司机故意把车开向悬崖，目标明确且轨迹清晰。

学术界将这种错误归类为偏置（Bias），代表模型在执拗地追求一个我们不想要的目标。

另一种风险更像是司机突然间喝醉了。车轮忽左忽右，轨迹毫无规律可言，没有任何逻辑能够预测下一秒的动向。

这就是随机崩溃（Variance）带来的麻烦。

研究人员把这种由随机波动主导的失败程度定义为不一致性（Incoherence）。

公式将错误拆解为偏置的平方与随机崩溃之和。不一致性衡量了随机崩溃在总错误中所占的比例。

当这个数值接近0时，模型的错误表现得非常稳健，即便错了也错得极有规律。当它接近1时，模型就变成了一个彻头彻尾的乱摊子。

目前的顶尖模型在应对复杂任务时正表现出明显的醉酒特征。

它们在推理过程中产生的随机性远超系统性偏置。未来的安全隐患或许更多来源于不可预知的工业意外，而非科幻电影里那种高智商的蓄意反抗。

图中描述了AI失控的两种路径。

左上展示了模型在编程任务中由于重采样导致的截然不同的结果；右上展示了将错误分解为偏置与随机崩溃的数学逻辑；左下揭示了随着任务复杂度提升模型变得更加不一致；右下展示了模型规模对不一致性的复杂影响。

思考时间拉长诱发逻辑系统性溃散

研究人员在GPQA（研究生级别科学问答）和SWE-BENCH（软件工程基准测试）等多个高难度考场观察模型表现。

他们发现了一个令人不安的趋势。AI花费在思考和采取行动上的步骤越多，它的表现就越不一致。

这就好比让一个人在脑子里做长达十步的连环算术。

第一步的微小偏差会随着推理链条（CoT）的延伸不断放大。

到最后一步时，模型给出的答案往往已经脱离了逻辑轨道。这种现象在Sonnet 4和o3-mini等前沿模型身上体现得淋漓尽致。

通过对比高于和低于中位数推理长度的样本，证明了即便任务难度相同，更长的推理路径也会直接导致更高的不一致性。

自然状态下的过度思考是导致混乱的元凶。即便这些长推理偶尔能蒙对答案，其过程也充满了随机的颠簸。

在Hot Mess的理论框架下，智力实体随着能力的提升，其行为变得越来越难以用单一目标来解释。

它们不再是纯粹的目标优化器。在高维的状态空间里，模型更像是在进行一场没有终点的随机漫步。

规模化扩张加剧复杂任务的随机性

单纯堆砌算力和参数似乎无法治愈这种逻辑上的精神内耗。

对于简单的任务，大型模型确实表现得更稳健，其不一致性随着规模增加而下降。

但在面对真正有挑战性的难题时，情况发生了反转。

在MMLU（大规模多任务语言理解）基准测试中，QWEN3家族展示了有趣的演化轨迹。

随着参数量从17亿增加到320亿，模型处理简单问题的偏置和随机崩溃都在下降。它们变得既聪明又可靠。

处理最困难的那部分题目时，虽然大型模型的整体错误率在降低，但它们降低偏置的速度远快于降低随机崩溃的速度。

大型模型更倾向于通过一种不稳定的方式偶尔触达真理。它们在错误时表现得比小型模型更加疯狂且不可预测。

这种现象在模拟优化器实验中得到了验证。

研究人员训练Transformer模型去模仿某种数学优化路径。模型规模越大，它们学习目标函数的速度就越快。它们维持长期连贯行动序列的能力增长却相对迟缓。

纠偏机制无法彻底根除系统内耗

集成学习（Ensembling）被认为是缓解混乱的止痛药。

通过让模型针对同一个问题多次尝试并取平均值，随机崩溃会随着尝试次数的增加而迅速下降。

在o4-mini的测试中，集成规模每扩大一倍，随机崩溃就成比例缩小。

现实世界中的许多行动是不可逆的。AI代理在执行删除数据库、发送邮件或物理操作时，往往没有机会重新来过。

在这种单次博弈的场景下，集成的力量无从发挥。模型内在的不一致性就成了一颗随时可能爆炸的雷。

推理预算（Reasoning Budgets）的增加虽然能提升准确率，却无法从根本上扭转不一致性的上升势头。

这揭示了一个残酷的事实。

AI的这种混乱并非源于训练不足。它更像是高维动态系统在处理长程依赖时的原生缺陷。

安全研究的重心应当发生偏移。

我们不应只盯着那些虚无缥缈的篡权阴谋。

真正迫在眉睫的威胁在于，当这些超级智能被委以重任去管理复杂的工业流程或软件架构时，它们可能会因为一次细微的逻辑扰动，在瞬间制造出人类无法理解也无法拦截的混乱风暴。

未来的风险控制需要更精细的分解。

偏置可以被拆解为目标误设（Goal Misspecification）和代理偏置（Mesa-bias）。

前者是人类没教好，后者是模型自己想歪了。

在这些偏置逐渐被优化的过程中，不一致性这个顽疾反而凸显出来。

如果不能在模型架构层面解决逻辑连贯性的损耗，单纯的规模化只会让我们得到一个虽然知识渊博却时刻处于醉酒边缘的数字巨人。

我们与其担心AI有自己的想法，不如担心它在关键时刻根本不知道自己在想什么。

参考资料：

https://arxiv.org/pdf/2601.23045

https://github.com/haeggee/hot-mess-of-ai

Anthropic重磅研究：AI终极风险不是觉醒，而是随机崩溃

智能失败底色由偏置与随机崩溃构成

思考时间拉长诱发逻辑系统性溃散

规模化扩张加剧复杂任务的随机性

纠偏机制无法彻底根除系统内耗

吐血推荐！千笔·专业论文写作工具，MBA论文必备神器

构建科技成果高效转化新路径——成果转化智能顾问赋能全链条服务生态

基于django的地方旅游宣传系统的设计与实现vue酒店商城景点餐饮

基于django框架实现运动食谱健身共享管理系统

芯片制造企业如何用CKEditor源码改造粘贴Excel公式文档？

汽车制造企业如何用CKEditor实现CAD图纸公式Word转存？

智能失败底色由偏置与随机崩溃构成

思考时间拉长诱发逻辑系统性溃散

规模化扩张加剧复杂任务的随机性

纠偏机制无法彻底根除系统内耗

吐血推荐！千笔·专业论文写作工具，MBA论文必备神器

构建科技成果高效转化新路径——成果转化智能顾问赋能全链条服务生态

基于django的地方旅游宣传系统的设计与实现vue酒店商城 景点餐饮

基于django框架实现运动食谱健身共享管理系统

芯片制造企业如何用CKEditor源码改造粘贴Excel公式文档？

汽车制造企业如何用CKEditor实现CAD图纸公式Word转存？

基于django的地方旅游宣传系统的设计与实现vue酒店商城景点餐饮