港中大（深圳）突破：AI思维偏差早期阻断实现70%算力节约能力-深圳市維司達科技有限公司

这项研究由香港中文大学（深圳）、深圳湾区研究院、北京科技大学与DualityRL联合开展，论文以预印本形式于2026年4月17日发布在arXiv平台，编号为arXiv:2604.16029v1，有兴趣深入阅读的读者可通过该编号直接检索原文。

**研究概要**

每当人们听说一个AI能做复杂数学题、解高难度科学问题，通常会忽视一个隐藏在背后的巨大代价：那些答案，往往不是靠一次思考得来的，而是让AI同时跑几十条、甚至几百条思路，最后投票选出"最靠谱的那个答案"。这种方法学名叫"并行推理"，效果确实好，但烧钱也是真的烧——据统计，一次查询的推理费用可以高达6美元，相当于帮你买了杯星巴克，但全都用来让机器胡思乱想了。

问题的根源在于：那些同时跑着的几十条思路，并不是每一条都有价值。有些思路从一开始就走错了方向，但机器并不知道，它会一路跑下去，直到给出一个错误答案——不仅白白消耗了算力，还可能在最后投票时"拉低整体水平"，把原本正确的结论给带偏了。

这就好比一支考试队伍，其中有几个人一上来就看错了题，但没人叫停他们，他们还是全程认真答完，最后把明显错误的答案也塞进了投票箱——结果正确答案反而输给了错误答案。

这篇论文要解决的正是这个问题：**能不能在思路刚开了个头的时候，就判断出它是不是走歪了，然后果断叫停，把算力留给那些有希望的思路？** 研究团队将这种技术称为"路径剪枝"（Path Pruning），并且提出了一套系统性的分类框架，以及他们自己开发的方法——STOP（Super TOken for Pruning，超级剪枝标记）。实验结果显示，STOP能在节省超过70%计算量的同时，还让最终答案的准确率显著提升。

---

一、为什么思路走歪了就很难自救？

研究团队发现，大型推理模型（也就是那种会一步步"思考"的AI）有一个很要命的特点：一旦推理路径的开头出现了错误，模型几乎没有能力自我纠正，只会顺着错误的方向越走越远，最终给出一个彻底偏离正轨的答案。

可以用导航来理解这件事。你开车去某个目的地，导航在最开始就给了你一个错误的起步方向。你跟着走了几公里之后，即便隐约觉得哪里不对劲，也很难直接掉头——因为后续的路口选择都是基于这个错误起点做出的，已经深陷其中。AI的推理路径也是这样，早期的错误会像滚雪球一样，越往后越难逆转。

正是因为如此，"在路径刚开始的时候就判断好坏"变得至关重要。与其等到它全程跑完再发现是废品，不如在它刚走出几步时就果断叫停，把资源腾出来给那些有希望的路径继续跑。这就是路径剪枝的核心逻辑。

---

二、现有方法各有什么短板？研究团队怎么分类的？

在研究团队正式提出自己的方法之前，他们做了一件很有价值的事：把市面上已有的路径剪枝方法系统地梳理了一遍，建立了一套统一的分类框架。这个框架按照两个维度来划分方法：一是"判断信号从哪里来"，二是"这套判断逻辑能不能通过训练来学习"。

先说"信号从哪里来"。有些方法是从AI输出的文字本身来判断——比如看这条思路的文字表述和其他思路有多像、有多大重叠，如果高度相似，就认为是冗余的，可以剪掉一个。还有些方法是专门请另一个AI模型来评分，就像考卷交给一位"外部阅卷老师"来批改，打个分再决定要不要继续。这些都属于"外部信号"。

与之相对的是"内部信号"——不看AI输出的文字，而是直接观察AI大脑内部的运行状态，比如它计算每个词时的信心程度、内部的概率分布等。理论上，这些内部状态包含着比文字输出更丰富、更细腻的信息。

再说"能不能通过训练来学习"。有些判断方法是固定规则，比如"如果这条路径的困惑度超过某个阈值，就认为它不靠谱"——这是人为设定的死规则，不会随着任务不同而调整。还有些方法是可以训练的，通过大量数据让模型学会"什么样的路径前缀预示着好结果，什么样的预示着坏结果"，因此能够适应不同任务的具体模式。

把这两个维度交叉组合，就得到了四种类型。第一类是"外部信号＋固定规则"，典型代表是根据文本相似度进行剪枝的方法，计算简单但过于粗糙，完全不知道AI内部在想什么。第二类是"外部信号＋可学习"，代表方法是用单独训练好的奖励模型来打分，有学习能力但计算开销大，而且依然看不到AI的内部状态。第三类是"内部信号＋固定规则"，代表方法是直接用AI的困惑度或token概率作为信心指标，虽然能看到内部状态，但判断标准是死的，无法适应任务变化。第四类，也就是最理想的组合，是"内部信号＋可学习"——既能看到AI内部丰富的状态信息，又能通过训练学会识别复杂的错误模式。

研究团队指出，前三类各有现成方法，唯独第四类几乎是一片空白。这个空白正是他们要填补的地方，而STOP就是他们为此设计的方案。

---

三、STOP是怎么工作的？一个"插件"级别的大脑旁路

STOP的核心设计理念可以用"插件"来理解。研究团队并没有改动原有的AI推理模型，而是在它旁边接上了一个轻量级的辅助模块，专门负责"看着AI的内部状态，判断这条推理路径值不值得继续跑"。

具体来说，STOP由三个零件组成。第一个是一个特殊的新词——被称为"超级标记"（[STOP]）——它被加入到AI的词汇表里，扮演一个专门的"信号收集器"，负责汇聚当前推理路径的所有内部状态信息。第二个是一个轻量级的适配器（用了一种叫LoRA的技术），它只在处理这个特殊标记时才启动，负责把AI的内部状态从"用于预测下一个词"的格式转换成"用于评价这条路径好不好"的格式。第三个是一个分类器，把适配器处理完的信息压缩成一个0到1之间的分数，分数越高代表这条推理路径越有希望。

整个推理过程分三个阶段。第一阶段叫"起跑"：AI同时为同一个问题生成N条推理路径，每条只跑一段前缀（比如前1024个词），并且把这些计算过程中产生的中间状态（技术上叫"KV缓存"）存储起来。第二阶段叫"体检"：把那个特殊的[STOP]标记接到每条缓存好的前缀后面，STOP模块快速扫一遍，给每条路径打个分——这个过程极快，因为它不需要重新计算前面的内容，直接复用了缓存。第三阶段叫"筛跑"：按照分数高低排序，保留得分最高的几条路径，其余全部丢弃，只让优质路径继续跑到终点，然后对这些路径的答案进行投票，得出最终答案。

训练STOP的方式也很精妙。研究团队用"蒙特卡洛估计"的方法来给路径前缀打标签——对于一段前缀，他们让AI从这个断点继续随机跑32次，看看这32次里有多少次能得出正确答案。如果32次里有25次正确，这条前缀就得到一个0.78的软标签；如果只有2次正确，就得到一个0.06的软标签。这比直接用"对/错"二元标签更准确，因为它反映的是路径的"潜力概率"，而不是单次随机结果。

值得一提的是，这个训练数据的构建虽然一次性成本较高（对于20B参数的模型，需要在8块H100显卡上运行约76小时），但只需要做一次，训练好的STOP模块就可以反复使用。研究团队承诺会开放训练数据和模型权重，让其他研究者不必重复这个过程。

---

四、四种方法放在一起比，结果怎么样？

研究团队设计了一套严格的评测方案：对于每道题，让AI同时生成64条推理路径，然后用各种方法从中筛出8条，最后用这8条的平均准确率来衡量方法效果。他们在五个不同难度的推理基准数据集上测试，涵盖数学竞赛（AIME 2024、AIME 2025、BRUMO 2025、HMMT 2025）和科学问答（GPQA Diamond），使用的AI模型从15亿参数一直覆盖到200亿参数，规模跨度很大。

结果呈现出清晰的层级关系。能看到AI内部状态的方法（第三类和第四类），普遍比只看文字输出的方法（第一类和第二类）表现更好。而在同等信号来源下，能够学习的方法又比死规则方法表现更好。最终，STOP作为唯一同时具备"内部信号"和"可学习"两大优势的方法，在几乎所有测试场景中都拔得头筹。

举一个具体数字来感受差距。在15亿参数模型做AIME 2024这道测试上，不做任何剪枝时，平均准确率是30.10%。用第一类方法剪枝后，不升反降，变成了26.25%。第二类方法提到了32.50%。第三类方法提到了32.92%。而STOP把这个数字推到了37.92%——同时还把总计算量减少了73.88%。换句话说，STOP用不到原来三分之一的算力，做到了比原来更高的准确率。

研究团队还测试了在不同算力预算下（也就是总共能跑多少条路径）各方法的表现变化。结果显示，其他方法在某些任务上好、某些任务上差，表现不够稳定；而STOP在几乎所有任务和所有算力规模下都能稳定地超越不剪枝的基线，展现出更强的适应性。

---

五、最佳保留比例怎么选？研究团队推导出一个规律

光知道"STOP好用"还不够，实际部署时还有一个关键问题：剪掉多少条路径最合适？保留太多，省不了多少算力；保留太少，可能把好的路径也误杀了。

研究团队通过大量实验，发现了一个规律：保留比例的最优值，和当前的算力预算以及任务的平均答案长度存在稳定的数学关系。具体来说，算力预算越大（也就是总共能跑更多的路径），最优保留比例就应该越小，因为当你有足够多的路径可以评估时，STOP的判断会更准确，可以更大胆地剪掉低分路径。此外，前缀越长（也就是看了AI思考过程的越多内容），判断准确性越高，也可以更激进地剪枝。

研究团队将这个规律用一个数学公式来表示：最优保留比例的倒数，约等于一个系数乘以算力预算的0.46次方，再乘以前缀长度的0.40次方，再除以任务平均长度的4.55次方。虽然公式看起来复杂，但背后的逻辑很直观——就是"信息越多、预算越足，越可以大胆剪"。

研究团队还根据这个公式，预先计算好了不同任务长度、不同前缀长度、不同算力预算下的推荐保留比例，以表格形式提供给使用者，这样实际部署时不需要反复试验，直接查表就能找到合适的参数。

---

六、为什么LoRA适配器不可或缺？几个关键的设计验证

研究团队对STOP的几个设计细节做了仔细的消融实验，也就是逐一去掉某个组件，看看性能如何变化，以此确认每个设计决策是否真正有必要。

第一个验证是关于训练标签的质量。研究团队对比了用32次蒙特卡洛采样得到的软标签（比如0.78、0.06这样的小数），和只用1次采样得到的硬标签（只有0或1两个值）。结果很明显：在AIME 2024上，软标签训练出的STOP在Cons@N指标上达到53.33%，而硬标签只有46.67%。原因在于，单次采样结果受随机性影响很大——一条本来很有潜力的前缀，可能因为那一次恰好跑出了错误答案，就被打上"差"的标签；反过来，一条质量较差的前缀，也可能凑巧答对了一次就被打上"好"的标签。多次采样取平均，才能得到稳定可靠的"潜力估计"。

第二个验证是关于LoRA适配器的必要性。有人可能会问：既然AI内部已经有丰富的状态信息，直接接一个分类器不就行了，为什么还要那个适配器？实验给出了答案：去掉适配器，只用一个简单线性分类器，AIME 2024的准确率从36.67%跌到31.67%，GPQA上也从41.73%跌到33.96%。这说明AI的内部状态虽然信息丰富，但它们的格式是为"预测下一个词"优化的，并不天然适合做质量评估。适配器的作用就是把这些"生成导向"的内部状态，转化为"评价导向"的格式，这个转化过程是不可省略的。

第三个验证是关于[STOP]特殊标记数量的选择。研究团队测试了从1个到9个不同数量的[STOP]标记。结果显示，4到6个时效果最好，太少了信息汇聚不够充分，太多了又出现过拟合（相当于记住了训练数据的噪声，而不是真正的规律）。最终选定4个作为标准配置。

第四个验证是关于LoRA的秩（rank）——这个参数控制着适配器的参数量大小。实验发现，秩为128时效果最好，更大的秩（256）反而略有下降，说明这个任务不需要非常大的模型容量，适中即可。

---

七、STOP在数学和科学之外也管用吗？

为了验证STOP是否只是针对数学题的"专用工具"，研究团队还在一个叫ZebraLogic的逻辑谜题数据集上做了测试。这个数据集考察的是组合推理和约束满足能力——类似于"A、B、C三个人，A不坐第一位，B在C的左边，问谁坐中间"这类谜题，和数学推导完全不同。在这个测试上，STOP将准确率从73.73%提升到了77.23%，证明它学到的判断能力并不局限于数学模式，而是具有一定的通用推理评估能力。

此外，研究团队还把STOP接入到了AIMO3竞赛系统中——这是一个让AI用外部工具来解数学竞赛题的真实比赛场景，使用的是1200亿参数的大模型。在单张H100显卡、5小时时限、50道题的约束下，不剪枝的基线方法得了39分；接入STOP，保留策略为从24条路径筛选到8条时，得分提升到42分；策略调整为从16条筛到8条时，得分进一步提升到43分，在公开排行榜上达到了银牌水平。这个结果说明STOP在有工具调用的复杂场景下同样有效。

---

八、STOP的"注意力"在盯着什么？

研究团队还做了一件很有意思的分析：他们可视化了[STOP]标记在处理不同质量路径时的注意力分布，看看它到底在"盯着"推理文本的哪些地方。

结论很有启发性。对于所有路径，STOP都会广泛关注推理过程中的结构性标记，比如"Wait"（等等）、"Hmm"（嗯）、"Therefore"（因此）等词，以及多选题的选项字母（A、B、C、D）。这说明它确实在跟踪推理的整体进展结构。

但高分路径和低分路径的注意力重点有着显著差异。在高分路径中，[STOP]更多地关注逻辑转折点——比如"don't"（不）、"doesn't"（不是）这类否定词，这些词往往出现在AI进行自我纠正的关键时刻，标志着推理过程中的深度思考。在低分路径中，[STOP]的注意力则过早地集中在了最终答案选项本身（比如"B"或"C"）上，而忽略了中间的推理过程。STOP将这种"跳过推理直接盯答案"的模式判定为"不靠谱"的信号，因为它意味着这条路径没有经过扎实的逻辑推导，更像是在猜答案。

这个发现说明STOP学会的是一种"过程导向"的评价方式：它更看重推理的逻辑完整性，而不仅仅是最终落在哪个答案上。

---

说到底，这项研究干了一件听起来简单但实际上很有价值的事：教AI学会"早点放弃没希望的想法"。在我们日常生活中，这其实是很普通的常识——做题时发现思路不对就应该尽早换方向，而不是一条死路走到底。但让AI掌握这种判断力，并且做得又快又准，并不是件容易的事。

研究团队通过系统分类、找到空白、填补空白的方式，构建出了STOP这套方案。它不需要额外的大模型来当"阅卷老师"，也不依赖粗糙的文字相似度规则，而是直接读懂AI自己的内部状态，用一个轻量级的插件式模块，以不到1%的额外时间开销，让答案质量显著提升、算力消耗大幅下降。

对普通用户而言，这意味着未来使用AI解决复杂问题时，同样的算力预算可以换来更高的准确率；或者说，达到同样的准确率，花费可以大幅降低。当然，研究团队也坦诚地指出了尚未解决的问题，比如在更大规模模型（700亿参数以上）和更大采样量（1000条以上路径）场景下的表现还未经过验证，以及目前只支持固定位置的单阶段剪枝，尚未探索在推理过程中多个时间点分级筛选的策略。

这些问题留给了后来的研究者，而这本身也是一篇好论文应有的样子——解决了一个真实的问题，同时清晰地指出了下一步可以走的方向。有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.16029查阅完整原文。

---

Q&A

Q1：STOP方法需要对原来的AI推理模型做什么改动吗？

A：STOP不改动原有的AI推理模型，原模型的参数全程保持冻结状态。STOP以插件形式接入，只训练一个轻量级的LoRA适配器和分类头，以及一个新加入词汇表的特殊标记[STOP]。推理时，STOP复用已有的KV缓存完成评分，额外时间开销不到原始生成时间的1%。

Q2：路径剪枝会不会误杀本来正确的推理路径，导致答案变差？

A：存在这种风险，但STOP通过蒙特卡洛软标签训练，学到的是路径的"成功概率"而非单次对错。实验结果显示，在几乎所有测试场景中，剪枝后筛选出的路径集合质量高于不剪枝时的全部路径集合，平均准确率普遍有所提升，说明误杀的损失远小于去除坏路径带来的收益。

Q3：STOP的训练数据是怎么来的，普通研究者能自己复现吗？

A：训练数据由研究团队通过对AIME竞赛题和GPQA科学问答题进行蒙特卡洛采样构建，每个前缀跑32次续写来估算成功概率。这个构建过程对于20B模型大约需要8张H100显卡运行76小时，一次性成本较高。研究团队已承诺开放构建好的数据集和训练好的模型权重，普通研究者可以直接下载使用，无需自行重复数据构建过程。

港中大（深圳）突破：AI思维偏差早期阻断实现70%算力节约能力

从 Pod 启动失败到权限声明缺失：OSS 初始化故障的完整诊断链路

从RAW到YUV420：手把手教你用V4L2调试摄像头图像格式与解决画面异常

千问3.5-2B实战案例：社交媒体截图→敏感内容识别+舆情倾向分析+回应话术生成

ERP上线！企业业务好处直接拉满！

AI Agent在教育个性化学习中的潜力

ROS机器人避障调参实战：TEB算法里weight_obstacle和penalty_epsilon到底怎么设？