news 2026/4/23 15:23:42

Anthropic重磅研究:AI终极风险不是觉醒,而是随机崩溃

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic重磅研究:AI终极风险不是觉醒,而是随机崩溃

超强人工智能的终极风险或许不是处心积虑的叛变,而是它会在逻辑的迷宫里把自己绕成一团不可预测的乱麻。

Anthropic、EPFL和爱丁堡大学的研究团队最新重磅研究揭开了模型规模、任务复杂度与失控风险之间的诡谲关系。

研究发现,随着推理步数增加,AI更容易表现出一种被称为不一致性的随机混乱,不像科幻小说中描绘的那样,它会觉醒,然后坚定执行某个错误目标,而是在海量计算中迷失了自我。

智能失败底色由偏置与随机崩溃构成

我们习惯把人工智能的风险想象成某种蓄谋已久的恶意。

这就像一名司机故意把车开向悬崖,目标明确且轨迹清晰。

学术界将这种错误归类为偏置(Bias),代表模型在执拗地追求一个我们不想要的目标。

另一种风险更像是司机突然间喝醉了。车轮忽左忽右,轨迹毫无规律可言,没有任何逻辑能够预测下一秒的动向。

这就是随机崩溃(Variance)带来的麻烦。

研究人员把这种由随机波动主导的失败程度定义为不一致性(Incoherence)。

公式将错误拆解为偏置的平方与随机崩溃之和。不一致性衡量了随机崩溃在总错误中所占的比例。

当这个数值接近0时,模型的错误表现得非常稳健,即便错了也错得极有规律。当它接近1时,模型就变成了一个彻头彻尾的乱摊子。

目前的顶尖模型在应对复杂任务时正表现出明显的醉酒特征。

它们在推理过程中产生的随机性远超系统性偏置。未来的安全隐患或许更多来源于不可预知的工业意外,而非科幻电影里那种高智商的蓄意反抗。

图中描述了AI失控的两种路径。

左上展示了模型在编程任务中由于重采样导致的截然不同的结果;右上展示了将错误分解为偏置与随机崩溃的数学逻辑;左下揭示了随着任务复杂度提升模型变得更加不一致;右下展示了模型规模对不一致性的复杂影响。

思考时间拉长诱发逻辑系统性溃散

研究人员在GPQA(研究生级别科学问答)和SWE-BENCH(软件工程基准测试)等多个高难度考场观察模型表现。

他们发现了一个令人不安的趋势。AI花费在思考和采取行动上的步骤越多,它的表现就越不一致。

这就好比让一个人在脑子里做长达十步的连环算术。

第一步的微小偏差会随着推理链条(CoT)的延伸不断放大。

到最后一步时,模型给出的答案往往已经脱离了逻辑轨道。这种现象在Sonnet 4和o3-mini等前沿模型身上体现得淋漓尽致。

通过对比高于和低于中位数推理长度的样本,证明了即便任务难度相同,更长的推理路径也会直接导致更高的不一致性。

自然状态下的过度思考是导致混乱的元凶。即便这些长推理偶尔能蒙对答案,其过程也充满了随机的颠簸。

在Hot Mess的理论框架下,智力实体随着能力的提升,其行为变得越来越难以用单一目标来解释。

它们不再是纯粹的目标优化器。在高维的状态空间里,模型更像是在进行一场没有终点的随机漫步。

规模化扩张加剧复杂任务的随机性

单纯堆砌算力和参数似乎无法治愈这种逻辑上的精神内耗。

对于简单的任务,大型模型确实表现得更稳健,其不一致性随着规模增加而下降。

但在面对真正有挑战性的难题时,情况发生了反转。

在MMLU(大规模多任务语言理解)基准测试中,QWEN3家族展示了有趣的演化轨迹。

随着参数量从17亿增加到320亿,模型处理简单问题的偏置和随机崩溃都在下降。它们变得既聪明又可靠。

处理最困难的那部分题目时,虽然大型模型的整体错误率在降低,但它们降低偏置的速度远快于降低随机崩溃的速度。

大型模型更倾向于通过一种不稳定的方式偶尔触达真理。它们在错误时表现得比小型模型更加疯狂且不可预测。

这种现象在模拟优化器实验中得到了验证。

研究人员训练Transformer模型去模仿某种数学优化路径。模型规模越大,它们学习目标函数的速度就越快。它们维持长期连贯行动序列的能力增长却相对迟缓。

纠偏机制无法彻底根除系统内耗

集成学习(Ensembling)被认为是缓解混乱的止痛药。

通过让模型针对同一个问题多次尝试并取平均值,随机崩溃会随着尝试次数的增加而迅速下降。

在o4-mini的测试中,集成规模每扩大一倍,随机崩溃就成比例缩小。

现实世界中的许多行动是不可逆的。AI代理在执行删除数据库、发送邮件或物理操作时,往往没有机会重新来过。

在这种单次博弈的场景下,集成的力量无从发挥。模型内在的不一致性就成了一颗随时可能爆炸的雷。

推理预算(Reasoning Budgets)的增加虽然能提升准确率,却无法从根本上扭转不一致性的上升势头。

这揭示了一个残酷的事实。

AI的这种混乱并非源于训练不足。它更像是高维动态系统在处理长程依赖时的原生缺陷。

安全研究的重心应当发生偏移。

我们不应只盯着那些虚无缥缈的篡权阴谋。

真正迫在眉睫的威胁在于,当这些超级智能被委以重任去管理复杂的工业流程或软件架构时,它们可能会因为一次细微的逻辑扰动,在瞬间制造出人类无法理解也无法拦截的混乱风暴。

未来的风险控制需要更精细的分解。

偏置可以被拆解为目标误设(Goal Misspecification)和代理偏置(Mesa-bias)。

前者是人类没教好,后者是模型自己想歪了。

在这些偏置逐渐被优化的过程中,不一致性这个顽疾反而凸显出来。

如果不能在模型架构层面解决逻辑连贯性的损耗,单纯的规模化只会让我们得到一个虽然知识渊博却时刻处于醉酒边缘的数字巨人。

我们与其担心AI有自己的想法,不如担心它在关键时刻根本不知道自己在想什么。

参考资料:

https://arxiv.org/pdf/2601.23045

https://github.com/haeggee/hot-mess-of-ai

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:04:58

吐血推荐!千笔·专业论文写作工具,MBA论文必备神器

你是否正在为MBA论文的选题而焦虑?是否在撰写过程中反复修改却难以达到理想效果?文献查找耗时费力,格式排版总出错,查重率又让人揪心……这些困扰是否让你感到力不从心?别再独自挣扎,千笔AI——专为学术写作…

作者头像 李华
网站建设 2026/4/23 11:06:21

构建科技成果高效转化新路径——成果转化智能顾问赋能全链条服务生态

在当今科技飞速发展的时代,科研成果的转化效率直接关系到国家创新能力的提升和经济高质量发展。然而,长期以来,技术评估困难、市场需求匹配不精准、成果推广能力弱以及成果筛选与资源对接依赖人工等问题,严重制约了科技成果从实验…

作者头像 李华
网站建设 2026/4/23 11:06:15

基于django的地方旅游宣传系统的设计与实现vue酒店商城 景点餐饮

目录摘要内容系统功能模块技术实现要点创新特色项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作摘要内容 基于Django和Vue.js的地方旅游宣传系统整合了酒店商城、景点推荐和餐饮服务功能,旨在为…

作者头像 李华
网站建设 2026/4/23 12:32:20

基于django框架实现运动食谱健身共享管理系统

目录系统概述核心功能技术实现创新点项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作系统概述 基于Django框架的运动食谱健身共享管理系统是一个集成食谱推荐、健身计划管理及社交共享功能的平台。系统通过…

作者头像 李华
网站建设 2026/4/23 12:32:20

芯片制造企业如何用CKEditor源码改造粘贴Excel公式文档?

📝 .NET CMS企业官网Word一键导入功能开发纪实 🕵️ 技术调研与选型过程 现状分析 作为广西一名.NET全栈开发者,最近接手的企业CMS官网项目需要增强编辑器功能。客户明确要求: 支持Office全家桶(Word/Excel/PPT)和PDF导入保留…

作者头像 李华
网站建设 2026/4/23 12:31:51

汽车制造企业如何用CKEditor实现CAD图纸公式Word转存?

PHP程序员的Word导入插件探索记 各位老铁们好啊!我是西安一名苦逼的PHP程序员,最近接了个CMS企业官网的活儿,客户突然甩给我个需求,让我整个人都不好了… 客户的"小"需求 客户说:“小王啊,我们…

作者头像 李华