news 2026/4/23 14:08:19

AAAI2026 | 针对LLM外部推理的因果奖励调整方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AAAI2026 | 针对LLM外部推理的因果奖励调整方法

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日,天基全重实验室研究团队的论文“Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction”被人工智能会议大会(The 40th Annual AAAI Conference on Artificial Intelligence,简称AAAI)接收。AAAI是中国计算机学会(CCF)推荐的A类国际学术会议,在人工智能和机器学习领域享有很高的学术声誉。下面将对该论文做详细的解读,供大家交流学习。

论文具体信息如下:

论文题目:Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction

论文作者:宋锐科*,宋泽恩*,郭慧杰,强文文

通讯作者:强文文

概述:

外部推理系统通过将大语言模型(LLMs)与过程奖励模型(PRMs)相结合,在数学问题求解等复杂任务上展现出强劲性能。这类方法依赖于PRM对推理路径进行评分,以引导搜索算法选择高质量解答。然而,这些系统容易遭受奖励黑客攻击,即PRM会将高分错误地赋予逻辑有缺陷的推理步骤,导致最终答案出错。从因果推断视角,我们构建了一个结构因果模型,揭示了语义混淆特征同时影响推理生成与奖励标注,形成后门路径并引入虚假关联。基于此分析,我们得到两个关键发现:(1)PRM在存在混淆时实际学习了特征出现概率而非逻辑正确性;(2)通过后门调整可消除该混淆效应以恢复真实因果奖励。沿此思路,我们提出Causal Reward Adjustment(CRA),通过三个核心步骤将因果结构融入奖励修正:一是训练稀疏自编码器提取PRM内部可解释特征;二是通过统计检验识别与奖励黑客行为显著相关的混淆特征;三是基于识别特征执行后门调整以消除虚假关联。在GSM8K和MATH数据集上的实验表明,CRA显著降低奖励黑客影响并提升推理准确率,且无需修改策略模型或重训练PRM。

动机与分析:

现有外部推理系统通过PRM对候选推理路径进行逐步评分,依赖beam search等算法选择高分路径作为最终答案。这种方法建立在一个关键假设之上:PRM的评分能够准确反映推理步骤的逻辑正确性。然而在真实场景中,该假设常常失效——如下图示例,在求解矩形内整数点问题时,PRM竟给"5 ≤ x ≤ -5"这种数学上自相矛盾的约束打出0.973的高分,仅仅因为该步骤在形式上"包含不等式组"这一表面特征。这类"奖励黑客"现象揭示出,PRM评分极易受到与逻辑无关的语义混淆特征干扰,如句式模板、关键词出现、步骤长度等。

进一步从因果角度来看,这些语义特征(如"书写不等式组"模式)在训练数据中同时高频出现在两类场景:一是被人类标注者偏好的解答风格中,二是逻辑错误的步骤中。这使得该特征成为一个典型的混淆变量:它既影响推理路径的生成(模型倾向输出带不等式组的步骤),也直接影响奖励标注(标注者看到不等式组就倾向给高分),形成一个后门路径。此时PRM学习的条件期望实际上退化为对混淆特征的检测,即判断"该步骤是否包含混淆特征",而非评估"该步骤是否逻辑正确"。这种虚假关联导致系统错误地将高分赋予表面完美但实质谬误的推理步骤,最终损害整体推理质量。如何在不重训练PRM的前提下,切断这种后门路径、恢复对逻辑正确性的真实因果评估,成为我们工作的核心出发点。

图一 数学推理中的奖励黑客问题示例。括号内为PRM评分,绿色表示正确步骤,红色表示错误步骤。小黑客图标标识逻辑有缺陷但获得高分的奖励黑客实例。

方法:

在方法层面,我们提出 Causal Reward Adjustment (CRA),通过三个核心步骤利用因果干预完成奖励修正。第一步,训练稀疏自编码器提取可解释特征。我们收集 PRM 各层 Transformer 的 token 级激活,为每一层训练独立的 SAE,将高维激活映射到低维稀疏编码,通过重构误差与 L1 稀疏性约束的联合优化,使每个非零维度对应一个可解释的语义模式(如数值计算、不等式书写或表面句式),为后续因果干预提供基础。第二步,识别奖励黑客的混淆特征。我们构建带标签的对比数据集,将推理步骤标注为“奖励黑客”(逻辑错误但 PRM 高分)或“正常”两类,对每维特征计算两类样本的激活分布差异,执行两样本 t 检验。统计量显著且激活强度超过阈值的维度被识别为混淆特征集,其分布差异证实了它们对奖励失真的因果性影响。第三步,实施后门调整修正评分。对每一步推理,我们干预已识别的混淆特征的维度:在经验数据范围内采样不同取值并替换原激活,重构隐藏状态后查询 PRM,获得条件奖励,再以混淆特征的先验分布加权平均,得到消除偏差的无偏奖励估计。此过程在推断时仅需少量计算开销,却将 PRM 的静态评分升级为剥离表面模式、聚焦逻辑本质的因果感知奖励机制,从而在 beam search 中优先选择真正正确的推理路径。

实验:

我们在 GSM8K 与 MATH 两大数学推理基准上系统评估了 CRA。基于 0.5B/3B/7B 等不同规模策略模型与 Math-Shepherd、Qwen2.5-Math-PRM 等主流奖励模型的交叉验证中,CRA 在所有配置下稳定优于原始 PRM 基线,MATH 数据集平均准确率提升 2.9 个百分点,GSM8K 提升 1.6 个百分点。此外,消融实验的干预效果可视化表明,CRA 对识别出的混淆特征进行因果干预时,能特异性地将奖励黑客步骤的分数降低约 0.04,而几乎不影响正常推理步骤,验证了因果特征识别与后门调整在精准抑制评分偏差的同时,保持了模型对正确逻辑的判别能力。

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你

在看

提出观点,表达想法,欢迎

留言

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:37:50

都说日本车没有未来时,突然咸鱼翻生,国产电车却在暴跌

日本汽车在中国市场连续多年衰退之后,诸多媒体都说日本车在中国市场已没有未来,它们在中国市场将持续衰退,再加上此前铃木、三菱等日本汽车企业都已退出中国市场,似乎日本汽车在中国市场蒙上了阴霾。相比起诸多国产汽车企业在2月初…

作者头像 李华
网站建设 2026/4/23 1:25:42

280城×50年×17类用地|SSPs未来土地数据分享

最近在处理城市扩张数据时,我发现一个有趣的现象:中国75个典型城市近50年来面积扩展了7.46倍,这种快速城市化进程对气候系统的影响远超预期。特别是在当前"双碳"目标背景下,如何平衡城市发展、耕地保护和碳汇能力&#…

作者头像 李华
网站建设 2026/4/23 11:15:34

吃透 C++ Stack 与 Queue:接口介绍 + 基础操作 + 实战习题

🔥小叶-duck:个人主页 ❄️个人专栏:《Data-Structure-Learning》 《C入门到进阶&自我学习过程记录》 ✨未择之路,不须回头 已择之路,纵是荆棘遍野,亦作花海遨游 目录 一、搞懂基础:Sta…

作者头像 李华
网站建设 2026/4/18 15:23:31

并发三剑客:CountDownLatch、Semaphore 与 CyclicBarrier 的奇妙旅行

背景设定: 想象你正在组织一场大型旅游活动。这场旅行涉及多个环节——游客集合、上车出发、景点游览、集体拍照、返程下车……每个环节都需要多人协作、同步进行。而 Java 并发包里的这三个工具类,就像三位各司其职的“旅行协调员”,分别负责…

作者头像 李华
网站建设 2026/4/18 14:30:05

FA_融合和滤波(FF)-无迹卡尔曼滤波(UKF)

FA:formulas and algorithm, FF:fusion and filtering,UKF:Unscented Kaleman Filter 一、UKF 介绍 1. 核心定义与背景 卡尔曼滤波(KF)仅适用于线性系统,而实际工程中绝大多数系统是非线性的。扩…

作者头像 李华
网站建设 2026/4/16 12:45:24

基于HY-Motion 1.0的智能家居控制动作生成

基于HY-Motion 1.0的智能家居控制动作生成 1. 当虚拟助手开始“动起来”的那一刻 你有没有想过,家里的智能音箱不只是发出声音,还能用自然的手势和你互动?当你说“把空调调到26度”,它不只是执行指令,而是抬起手臂、…

作者头像 李华