news 2026/4/28 20:53:17

港中大(深圳)突破:AI思维偏差早期阻断实现70%算力节约能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
港中大(深圳)突破:AI思维偏差早期阻断实现70%算力节约能力

这项研究由香港中文大学(深圳)、深圳湾区研究院、北京科技大学与DualityRL联合开展,论文以预印本形式于2026年4月17日发布在arXiv平台,编号为arXiv:2604.16029v1,有兴趣深入阅读的读者可通过该编号直接检索原文。

**研究概要**

每当人们听说一个AI能做复杂数学题、解高难度科学问题,通常会忽视一个隐藏在背后的巨大代价:那些答案,往往不是靠一次思考得来的,而是让AI同时跑几十条、甚至几百条思路,最后投票选出"最靠谱的那个答案"。这种方法学名叫"并行推理",效果确实好,但烧钱也是真的烧——据统计,一次查询的推理费用可以高达6美元,相当于帮你买了杯星巴克,但全都用来让机器胡思乱想了。

问题的根源在于:那些同时跑着的几十条思路,并不是每一条都有价值。有些思路从一开始就走错了方向,但机器并不知道,它会一路跑下去,直到给出一个错误答案——不仅白白消耗了算力,还可能在最后投票时"拉低整体水平",把原本正确的结论给带偏了。

这就好比一支考试队伍,其中有几个人一上来就看错了题,但没人叫停他们,他们还是全程认真答完,最后把明显错误的答案也塞进了投票箱——结果正确答案反而输给了错误答案。

这篇论文要解决的正是这个问题:**能不能在思路刚开了个头的时候,就判断出它是不是走歪了,然后果断叫停,把算力留给那些有希望的思路?** 研究团队将这种技术称为"路径剪枝"(Path Pruning),并且提出了一套系统性的分类框架,以及他们自己开发的方法——STOP(Super TOken for Pruning,超级剪枝标记)。实验结果显示,STOP能在节省超过70%计算量的同时,还让最终答案的准确率显著提升。

---

一、为什么思路走歪了就很难自救?

研究团队发现,大型推理模型(也就是那种会一步步"思考"的AI)有一个很要命的特点:一旦推理路径的开头出现了错误,模型几乎没有能力自我纠正,只会顺着错误的方向越走越远,最终给出一个彻底偏离正轨的答案。

可以用导航来理解这件事。你开车去某个目的地,导航在最开始就给了你一个错误的起步方向。你跟着走了几公里之后,即便隐约觉得哪里不对劲,也很难直接掉头——因为后续的路口选择都是基于这个错误起点做出的,已经深陷其中。AI的推理路径也是这样,早期的错误会像滚雪球一样,越往后越难逆转。

正是因为如此,"在路径刚开始的时候就判断好坏"变得至关重要。与其等到它全程跑完再发现是废品,不如在它刚走出几步时就果断叫停,把资源腾出来给那些有希望的路径继续跑。这就是路径剪枝的核心逻辑。

---

二、现有方法各有什么短板?研究团队怎么分类的?

在研究团队正式提出自己的方法之前,他们做了一件很有价值的事:把市面上已有的路径剪枝方法系统地梳理了一遍,建立了一套统一的分类框架。这个框架按照两个维度来划分方法:一是"判断信号从哪里来",二是"这套判断逻辑能不能通过训练来学习"。

先说"信号从哪里来"。有些方法是从AI输出的文字本身来判断——比如看这条思路的文字表述和其他思路有多像、有多大重叠,如果高度相似,就认为是冗余的,可以剪掉一个。还有些方法是专门请另一个AI模型来评分,就像考卷交给一位"外部阅卷老师"来批改,打个分再决定要不要继续。这些都属于"外部信号"。

与之相对的是"内部信号"——不看AI输出的文字,而是直接观察AI大脑内部的运行状态,比如它计算每个词时的信心程度、内部的概率分布等。理论上,这些内部状态包含着比文字输出更丰富、更细腻的信息。

再说"能不能通过训练来学习"。有些判断方法是固定规则,比如"如果这条路径的困惑度超过某个阈值,就认为它不靠谱"——这是人为设定的死规则,不会随着任务不同而调整。还有些方法是可以训练的,通过大量数据让模型学会"什么样的路径前缀预示着好结果,什么样的预示着坏结果",因此能够适应不同任务的具体模式。

把这两个维度交叉组合,就得到了四种类型。第一类是"外部信号+固定规则",典型代表是根据文本相似度进行剪枝的方法,计算简单但过于粗糙,完全不知道AI内部在想什么。第二类是"外部信号+可学习",代表方法是用单独训练好的奖励模型来打分,有学习能力但计算开销大,而且依然看不到AI的内部状态。第三类是"内部信号+固定规则",代表方法是直接用AI的困惑度或token概率作为信心指标,虽然能看到内部状态,但判断标准是死的,无法适应任务变化。第四类,也就是最理想的组合,是"内部信号+可学习"——既能看到AI内部丰富的状态信息,又能通过训练学会识别复杂的错误模式。

研究团队指出,前三类各有现成方法,唯独第四类几乎是一片空白。这个空白正是他们要填补的地方,而STOP就是他们为此设计的方案。

---

三、STOP是怎么工作的?一个"插件"级别的大脑旁路

STOP的核心设计理念可以用"插件"来理解。研究团队并没有改动原有的AI推理模型,而是在它旁边接上了一个轻量级的辅助模块,专门负责"看着AI的内部状态,判断这条推理路径值不值得继续跑"。

具体来说,STOP由三个零件组成。第一个是一个特殊的新词——被称为"超级标记"([STOP])——它被加入到AI的词汇表里,扮演一个专门的"信号收集器",负责汇聚当前推理路径的所有内部状态信息。第二个是一个轻量级的适配器(用了一种叫LoRA的技术),它只在处理这个特殊标记时才启动,负责把AI的内部状态从"用于预测下一个词"的格式转换成"用于评价这条路径好不好"的格式。第三个是一个分类器,把适配器处理完的信息压缩成一个0到1之间的分数,分数越高代表这条推理路径越有希望。

整个推理过程分三个阶段。第一阶段叫"起跑":AI同时为同一个问题生成N条推理路径,每条只跑一段前缀(比如前1024个词),并且把这些计算过程中产生的中间状态(技术上叫"KV缓存")存储起来。第二阶段叫"体检":把那个特殊的[STOP]标记接到每条缓存好的前缀后面,STOP模块快速扫一遍,给每条路径打个分——这个过程极快,因为它不需要重新计算前面的内容,直接复用了缓存。第三阶段叫"筛跑":按照分数高低排序,保留得分最高的几条路径,其余全部丢弃,只让优质路径继续跑到终点,然后对这些路径的答案进行投票,得出最终答案。

训练STOP的方式也很精妙。研究团队用"蒙特卡洛估计"的方法来给路径前缀打标签——对于一段前缀,他们让AI从这个断点继续随机跑32次,看看这32次里有多少次能得出正确答案。如果32次里有25次正确,这条前缀就得到一个0.78的软标签;如果只有2次正确,就得到一个0.06的软标签。这比直接用"对/错"二元标签更准确,因为它反映的是路径的"潜力概率",而不是单次随机结果。

值得一提的是,这个训练数据的构建虽然一次性成本较高(对于20B参数的模型,需要在8块H100显卡上运行约76小时),但只需要做一次,训练好的STOP模块就可以反复使用。研究团队承诺会开放训练数据和模型权重,让其他研究者不必重复这个过程。

---

四、四种方法放在一起比,结果怎么样?

研究团队设计了一套严格的评测方案:对于每道题,让AI同时生成64条推理路径,然后用各种方法从中筛出8条,最后用这8条的平均准确率来衡量方法效果。他们在五个不同难度的推理基准数据集上测试,涵盖数学竞赛(AIME 2024、AIME 2025、BRUMO 2025、HMMT 2025)和科学问答(GPQA Diamond),使用的AI模型从15亿参数一直覆盖到200亿参数,规模跨度很大。

结果呈现出清晰的层级关系。能看到AI内部状态的方法(第三类和第四类),普遍比只看文字输出的方法(第一类和第二类)表现更好。而在同等信号来源下,能够学习的方法又比死规则方法表现更好。最终,STOP作为唯一同时具备"内部信号"和"可学习"两大优势的方法,在几乎所有测试场景中都拔得头筹。

举一个具体数字来感受差距。在15亿参数模型做AIME 2024这道测试上,不做任何剪枝时,平均准确率是30.10%。用第一类方法剪枝后,不升反降,变成了26.25%。第二类方法提到了32.50%。第三类方法提到了32.92%。而STOP把这个数字推到了37.92%——同时还把总计算量减少了73.88%。换句话说,STOP用不到原来三分之一的算力,做到了比原来更高的准确率。

研究团队还测试了在不同算力预算下(也就是总共能跑多少条路径)各方法的表现变化。结果显示,其他方法在某些任务上好、某些任务上差,表现不够稳定;而STOP在几乎所有任务和所有算力规模下都能稳定地超越不剪枝的基线,展现出更强的适应性。

---

五、最佳保留比例怎么选?研究团队推导出一个规律

光知道"STOP好用"还不够,实际部署时还有一个关键问题:剪掉多少条路径最合适?保留太多,省不了多少算力;保留太少,可能把好的路径也误杀了。

研究团队通过大量实验,发现了一个规律:保留比例的最优值,和当前的算力预算以及任务的平均答案长度存在稳定的数学关系。具体来说,算力预算越大(也就是总共能跑更多的路径),最优保留比例就应该越小,因为当你有足够多的路径可以评估时,STOP的判断会更准确,可以更大胆地剪掉低分路径。此外,前缀越长(也就是看了AI思考过程的越多内容),判断准确性越高,也可以更激进地剪枝。

研究团队将这个规律用一个数学公式来表示:最优保留比例的倒数,约等于一个系数乘以算力预算的0.46次方,再乘以前缀长度的0.40次方,再除以任务平均长度的4.55次方。虽然公式看起来复杂,但背后的逻辑很直观——就是"信息越多、预算越足,越可以大胆剪"。

研究团队还根据这个公式,预先计算好了不同任务长度、不同前缀长度、不同算力预算下的推荐保留比例,以表格形式提供给使用者,这样实际部署时不需要反复试验,直接查表就能找到合适的参数。

---

六、为什么LoRA适配器不可或缺?几个关键的设计验证

研究团队对STOP的几个设计细节做了仔细的消融实验,也就是逐一去掉某个组件,看看性能如何变化,以此确认每个设计决策是否真正有必要。

第一个验证是关于训练标签的质量。研究团队对比了用32次蒙特卡洛采样得到的软标签(比如0.78、0.06这样的小数),和只用1次采样得到的硬标签(只有0或1两个值)。结果很明显:在AIME 2024上,软标签训练出的STOP在Cons@N指标上达到53.33%,而硬标签只有46.67%。原因在于,单次采样结果受随机性影响很大——一条本来很有潜力的前缀,可能因为那一次恰好跑出了错误答案,就被打上"差"的标签;反过来,一条质量较差的前缀,也可能凑巧答对了一次就被打上"好"的标签。多次采样取平均,才能得到稳定可靠的"潜力估计"。

第二个验证是关于LoRA适配器的必要性。有人可能会问:既然AI内部已经有丰富的状态信息,直接接一个分类器不就行了,为什么还要那个适配器?实验给出了答案:去掉适配器,只用一个简单线性分类器,AIME 2024的准确率从36.67%跌到31.67%,GPQA上也从41.73%跌到33.96%。这说明AI的内部状态虽然信息丰富,但它们的格式是为"预测下一个词"优化的,并不天然适合做质量评估。适配器的作用就是把这些"生成导向"的内部状态,转化为"评价导向"的格式,这个转化过程是不可省略的。

第三个验证是关于[STOP]特殊标记数量的选择。研究团队测试了从1个到9个不同数量的[STOP]标记。结果显示,4到6个时效果最好,太少了信息汇聚不够充分,太多了又出现过拟合(相当于记住了训练数据的噪声,而不是真正的规律)。最终选定4个作为标准配置。

第四个验证是关于LoRA的秩(rank)——这个参数控制着适配器的参数量大小。实验发现,秩为128时效果最好,更大的秩(256)反而略有下降,说明这个任务不需要非常大的模型容量,适中即可。

---

七、STOP在数学和科学之外也管用吗?

为了验证STOP是否只是针对数学题的"专用工具",研究团队还在一个叫ZebraLogic的逻辑谜题数据集上做了测试。这个数据集考察的是组合推理和约束满足能力——类似于"A、B、C三个人,A不坐第一位,B在C的左边,问谁坐中间"这类谜题,和数学推导完全不同。在这个测试上,STOP将准确率从73.73%提升到了77.23%,证明它学到的判断能力并不局限于数学模式,而是具有一定的通用推理评估能力。

此外,研究团队还把STOP接入到了AIMO3竞赛系统中——这是一个让AI用外部工具来解数学竞赛题的真实比赛场景,使用的是1200亿参数的大模型。在单张H100显卡、5小时时限、50道题的约束下,不剪枝的基线方法得了39分;接入STOP,保留策略为从24条路径筛选到8条时,得分提升到42分;策略调整为从16条筛到8条时,得分进一步提升到43分,在公开排行榜上达到了银牌水平。这个结果说明STOP在有工具调用的复杂场景下同样有效。

---

八、STOP的"注意力"在盯着什么?

研究团队还做了一件很有意思的分析:他们可视化了[STOP]标记在处理不同质量路径时的注意力分布,看看它到底在"盯着"推理文本的哪些地方。

结论很有启发性。对于所有路径,STOP都会广泛关注推理过程中的结构性标记,比如"Wait"(等等)、"Hmm"(嗯)、"Therefore"(因此)等词,以及多选题的选项字母(A、B、C、D)。这说明它确实在跟踪推理的整体进展结构。

但高分路径和低分路径的注意力重点有着显著差异。在高分路径中,[STOP]更多地关注逻辑转折点——比如"don't"(不)、"doesn't"(不是)这类否定词,这些词往往出现在AI进行自我纠正的关键时刻,标志着推理过程中的深度思考。在低分路径中,[STOP]的注意力则过早地集中在了最终答案选项本身(比如"B"或"C")上,而忽略了中间的推理过程。STOP将这种"跳过推理直接盯答案"的模式判定为"不靠谱"的信号,因为它意味着这条路径没有经过扎实的逻辑推导,更像是在猜答案。

这个发现说明STOP学会的是一种"过程导向"的评价方式:它更看重推理的逻辑完整性,而不仅仅是最终落在哪个答案上。

---

说到底,这项研究干了一件听起来简单但实际上很有价值的事:教AI学会"早点放弃没希望的想法"。在我们日常生活中,这其实是很普通的常识——做题时发现思路不对就应该尽早换方向,而不是一条死路走到底。但让AI掌握这种判断力,并且做得又快又准,并不是件容易的事。

研究团队通过系统分类、找到空白、填补空白的方式,构建出了STOP这套方案。它不需要额外的大模型来当"阅卷老师",也不依赖粗糙的文字相似度规则,而是直接读懂AI自己的内部状态,用一个轻量级的插件式模块,以不到1%的额外时间开销,让答案质量显著提升、算力消耗大幅下降。

对普通用户而言,这意味着未来使用AI解决复杂问题时,同样的算力预算可以换来更高的准确率;或者说,达到同样的准确率,花费可以大幅降低。当然,研究团队也坦诚地指出了尚未解决的问题,比如在更大规模模型(700亿参数以上)和更大采样量(1000条以上路径)场景下的表现还未经过验证,以及目前只支持固定位置的单阶段剪枝,尚未探索在推理过程中多个时间点分级筛选的策略。

这些问题留给了后来的研究者,而这本身也是一篇好论文应有的样子——解决了一个真实的问题,同时清晰地指出了下一步可以走的方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.16029查阅完整原文。

---

Q&A

Q1:STOP方法需要对原来的AI推理模型做什么改动吗?

A:STOP不改动原有的AI推理模型,原模型的参数全程保持冻结状态。STOP以插件形式接入,只训练一个轻量级的LoRA适配器和分类头,以及一个新加入词汇表的特殊标记[STOP]。推理时,STOP复用已有的KV缓存完成评分,额外时间开销不到原始生成时间的1%。

Q2:路径剪枝会不会误杀本来正确的推理路径,导致答案变差?

A:存在这种风险,但STOP通过蒙特卡洛软标签训练,学到的是路径的"成功概率"而非单次对错。实验结果显示,在几乎所有测试场景中,剪枝后筛选出的路径集合质量高于不剪枝时的全部路径集合,平均准确率普遍有所提升,说明误杀的损失远小于去除坏路径带来的收益。

Q3:STOP的训练数据是怎么来的,普通研究者能自己复现吗?

A:训练数据由研究团队通过对AIME竞赛题和GPQA科学问答题进行蒙特卡洛采样构建,每个前缀跑32次续写来估算成功概率。这个构建过程对于20B模型大约需要8张H100显卡运行76小时,一次性成本较高。研究团队已承诺开放构建好的数据集和训练好的模型权重,普通研究者可以直接下载使用,无需自行重复数据构建过程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 20:48:20

从 Pod 启动失败到权限声明缺失:OSS 初始化故障的完整诊断链路

在云原生与私有云环境中,Pod 启动失败并不一定意味着应用代码崩溃,也可能是初始化阶段依赖的外部资源被平台策略拦截。本文围绕一个典型案例展开:Pod 在启动过程中尝试初始化 OSS,日志报出 PermissionsAccessDenied,并…

作者头像 李华
网站建设 2026/4/28 20:47:25

从RAW到YUV420:手把手教你用V4L2调试摄像头图像格式与解决画面异常

从RAW到YUV420:V4L2摄像头图像格式调试实战指南 当你在Linux系统上调试摄像头时,是否遇到过画面颜色异常、卡顿或者根本无法显示的情况?这些问题往往与图像格式的设置和处理密切相关。本文将带你深入理解从RAW到YUV420的图像格式转换过程&…

作者头像 李华
网站建设 2026/4/28 20:42:48

ERP上线!企业业务好处直接拉满!

经营企业并非易事——当各流程持续运转时,跟踪所有环节常让人不堪重负。随着业务增长,管理难度进一步提升,越来越多企业主选择实施ERP(企业资源计划)解决方案,以更高效地管理流程与部门。了解 ERP 系统如何…

作者头像 李华
网站建设 2026/4/28 20:39:26

AI Agent在教育个性化学习中的潜力

万字长文拆解:AI Agent在教育个性化学习中的核心潜力与落地路径 作为深耕教育科技领域5年的软件工程师,我见过太多「因材施教」的理想卡在了「规模化成本」的死胡同里:一个45人的班级,老师哪怕不吃不睡,也不可能为每个学生定制完全适配的学习路径。而大模型时代崛起的AI A…

作者头像 李华