AAAI2026 | 针对LLM外部推理的因果奖励调整方法-深圳市維司達科技有限公司

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

近日，天基全重实验室研究团队的论文“Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction”被人工智能会议大会（The 40th Annual AAAI Conference on Artificial Intelligence，简称AAAI）接收。AAAI是中国计算机学会（CCF）推荐的A类国际学术会议，在人工智能和机器学习领域享有很高的学术声誉。下面将对该论文做详细的解读，供大家交流学习。

论文具体信息如下：

论文题目：Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction

论文作者：宋锐科*，宋泽恩*，郭慧杰，强文文

通讯作者：强文文

概述：

外部推理系统通过将大语言模型（LLMs）与过程奖励模型（PRMs）相结合，在数学问题求解等复杂任务上展现出强劲性能。这类方法依赖于PRM对推理路径进行评分，以引导搜索算法选择高质量解答。然而，这些系统容易遭受奖励黑客攻击，即PRM会将高分错误地赋予逻辑有缺陷的推理步骤，导致最终答案出错。从因果推断视角，我们构建了一个结构因果模型，揭示了语义混淆特征同时影响推理生成与奖励标注，形成后门路径并引入虚假关联。基于此分析，我们得到两个关键发现：（1）PRM在存在混淆时实际学习了特征出现概率而非逻辑正确性；（2）通过后门调整可消除该混淆效应以恢复真实因果奖励。沿此思路，我们提出Causal Reward Adjustment（CRA），通过三个核心步骤将因果结构融入奖励修正：一是训练稀疏自编码器提取PRM内部可解释特征；二是通过统计检验识别与奖励黑客行为显著相关的混淆特征；三是基于识别特征执行后门调整以消除虚假关联。在GSM8K和MATH数据集上的实验表明，CRA显著降低奖励黑客影响并提升推理准确率，且无需修改策略模型或重训练PRM。

动机与分析：

现有外部推理系统通过PRM对候选推理路径进行逐步评分，依赖beam search等算法选择高分路径作为最终答案。这种方法建立在一个关键假设之上：PRM的评分能够准确反映推理步骤的逻辑正确性。然而在真实场景中，该假设常常失效——如下图示例，在求解矩形内整数点问题时，PRM竟给"5 ≤ x ≤ -5"这种数学上自相矛盾的约束打出0.973的高分，仅仅因为该步骤在形式上"包含不等式组"这一表面特征。这类"奖励黑客"现象揭示出，PRM评分极易受到与逻辑无关的语义混淆特征干扰，如句式模板、关键词出现、步骤长度等。

进一步从因果角度来看，这些语义特征（如"书写不等式组"模式）在训练数据中同时高频出现在两类场景：一是被人类标注者偏好的解答风格中，二是逻辑错误的步骤中。这使得该特征成为一个典型的混淆变量：它既影响推理路径的生成（模型倾向输出带不等式组的步骤），也直接影响奖励标注（标注者看到不等式组就倾向给高分），形成一个后门路径。此时PRM学习的条件期望实际上退化为对混淆特征的检测，即判断"该步骤是否包含混淆特征"，而非评估"该步骤是否逻辑正确"。这种虚假关联导致系统错误地将高分赋予表面完美但实质谬误的推理步骤，最终损害整体推理质量。如何在不重训练PRM的前提下，切断这种后门路径、恢复对逻辑正确性的真实因果评估，成为我们工作的核心出发点。

图一数学推理中的奖励黑客问题示例。括号内为PRM评分，绿色表示正确步骤，红色表示错误步骤。小黑客图标标识逻辑有缺陷但获得高分的奖励黑客实例。

方法：

在方法层面，我们提出 Causal Reward Adjustment (CRA)，通过三个核心步骤利用因果干预完成奖励修正。第一步，训练稀疏自编码器提取可解释特征。我们收集 PRM 各层 Transformer 的 token 级激活，为每一层训练独立的 SAE，将高维激活映射到低维稀疏编码，通过重构误差与 L1 稀疏性约束的联合优化，使每个非零维度对应一个可解释的语义模式（如数值计算、不等式书写或表面句式），为后续因果干预提供基础。第二步，识别奖励黑客的混淆特征。我们构建带标签的对比数据集，将推理步骤标注为“奖励黑客”（逻辑错误但 PRM 高分）或“正常”两类，对每维特征计算两类样本的激活分布差异，执行两样本 t 检验。统计量显著且激活强度超过阈值的维度被识别为混淆特征集，其分布差异证实了它们对奖励失真的因果性影响。第三步，实施后门调整修正评分。对每一步推理，我们干预已识别的混淆特征的维度：在经验数据范围内采样不同取值并替换原激活，重构隐藏状态后查询 PRM，获得条件奖励，再以混淆特征的先验分布加权平均，得到消除偏差的无偏奖励估计。此过程在推断时仅需少量计算开销，却将 PRM 的静态评分升级为剥离表面模式、聚焦逻辑本质的因果感知奖励机制，从而在 beam search 中优先选择真正正确的推理路径。

实验：

我们在 GSM8K 与 MATH 两大数学推理基准上系统评估了 CRA。基于 0.5B/3B/7B 等不同规模策略模型与 Math-Shepherd、Qwen2.5-Math-PRM 等主流奖励模型的交叉验证中，CRA 在所有配置下稳定优于原始 PRM 基线，MATH 数据集平均准确率提升 2.9 个百分点，GSM8K 提升 1.6 个百分点。此外，消融实验的干预效果可视化表明，CRA 对识别出的混淆特征进行因果干预时，能特异性地将奖励黑客步骤的分数降低约 0.04，而几乎不影响正常推理步骤，验证了因果特征识别与后门调整在精准抑制评分偏差的同时，保持了模型对正确逻辑的判别能力。

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾800场活动，超1000万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言