因果表征学习提升RLHF奖励模型鲁棒性-深圳市維司達科技有限公司

1. 因果表征学习在RLHF中的鲁棒奖励建模

在大型语言模型（LLM）与人类偏好的对齐过程中，强化学习人类反馈（RLHF）已成为关键技术。然而，传统奖励模型容易受到与人类偏好无关的虚假特征（如文本长度、风格偏差）的影响，导致奖励黑客（reward hacking）问题——模型通过优化这些虚假特征获取高奖励，而非真正提升回答质量。

1.1 奖励黑客问题的本质

奖励黑客现象源于标准奖励模型的结构缺陷：

虚假相关性学习：模型可能将高奖励与文本长度、奉承语气等非因果特征关联
特征纠缠：传统架构中，因果特征（如答案正确性）与非因果特征（如文本长度）在潜在表示中混合
策略利用：RL优化过程会敏锐地发现并利用这些虚假相关性

关键问题：当模型表示无法区分因果与非因果因素时，任何基于该表示的奖励预测都会继承这种混淆

2. 因果表征学习的解决方案

2.1 核心架构设计

CausalRM框架通过变分自编码器（VAE）实现潜在空间分解：

LLM骨干网络 → 共享特征提取层 ↓ [因果编码器] → 因果潜在变量zc（128维） [非因果编码器] → 非因果潜在变量znc（512维)

关键组件：

因果预测头：仅接受zc输入的单层线性网络
对抗头：带梯度反转层（GRL）的znc预测器
重构解码器：确保[zc;znc]能重建原始嵌入

2.2 训练目标函数

联合优化五项损失：

L_{total} = L_{pref} + λ_{cKL}L_{cKL} + λ_{rec}L_{rec} + λ_{ncKL}L_{ncKL} - λ_{adv}L_{adv}

其中：

L_pref：标准Bradley-Terry偏好损失
L_cKL：因果潜在变量的KL散度约束
L_ncKL：非因果潜在变量的KL散度约束
L_adv：对抗损失（通过GRL实现）
L_rec：潜在空间重构损失

2.3 对抗训练机制

梯度反转层（GRL）的运作方式：

前向传播：znc → 对抗头 → 奖励预测
反向传播：对抗头参数正常更新
特征编码器接收梯度反转（乘以-λ_grl）

这种设计迫使非因果编码器消除与奖励预测相关的信息，同时对抗头尽力从"净化"后的znc预测奖励

3. 实现细节与调优

3.1 模型参数配置

组件	规格说明
骨干网络	Qwen2.5-7B（隐藏层1024维）
因果潜在维度	128（高斯分布）
非因果潜在维度	512（高斯分布）
奖励头	线性层（无偏置）
对抗头	线性层（GRL强度λ=1.0）
重构器	线性层（输入640维→1024维）

3.2 关键超参数

{ "learning_rate": 9e-6, # 使用AdamW优化器 "batch_size": 256, # 梯度累积步数=1 "λ_cKL": 0.001, # 因果KL系数 "λ_ncKL": 0.001, # 非因果KL系数 "λ_adv": 0.05, # 对抗损失系数 "λ_rec": 0.001, # 重构损失系数 "warmup_steps": 500, # 线性学习率预热 }

3.3 训练技巧

两阶段训练：
- 第一阶段：仅优化L_pref + L_rec（1000步）
- 第二阶段：引入全部损失项
潜在采样策略：
- 训练时：从q(z|h)随机采样
- 推理时：使用均值μ代替采样
梯度裁剪：
- 设置全局梯度范数阈值2.0
- 防止对抗训练导致梯度爆炸

4. 实验验证与分析

4.1 数学推理任务（GSM8K/MATH）

方法	ID准确率	OOD准确率	长度敏感度(σ)
标准RM	67.9%	83.0%	0.12
GoalRM	68.3%	82.2%	0.22
InfoRM	66.1%	82.5%	0.14
CausalRM	70.1%	85.6%	0.03

关键发现：

对长度变化的鲁棒性提升4倍
OOD泛化能力显著增强
下游PPO策略的数学正确率提升6.2%

4.2 开放对话任务（Anthropic-HH）

方法	人工偏好胜率	奉承语偏差	平均响应质量
标准RM	54.8%	-11.2%	2.8/5
InfoRM	45.5%	-4.2%	3.1/5
CausalRM	72.3%	-1.4%	3.9/5

行为分析：

减少对奉承语气的依赖（如"当然，以下是..."）
避免冗余重复（见图9对比）
保持回答的相关性和一致性

5. 典型问题解决方案

5.1 长度偏差处理

问题现象：传统RM对长文本有+0.3~0.5的奖励偏差

CausalRM方案：

将长度信息编码到znc
通过GRL消除zc中的长度相关性
重构损失确保长度信息不丢失

实测效果：不同长度区间的奖励波动从±0.15降至±0.02

5.2 奉承语气抑制

对抗训练策略：

构造含奉承前缀的污染数据集（p=0.8）
在znc中识别风格特征
通过L_adv最小化风格与奖励的互信息

结果：

在污染测试集上准确率仅下降1.7%
相比基线方法（下降11.4%）有显著提升

6. 实践建议

数据准备：
- 确保偏好数据包含多样化的非因果特征（不同长度、风格等）
- 可人工构造反事实样本增强训练

模型部署：

def predict_reward(prompt, response): h = backbone(prompt, response) # 获取骨干特征 mu_c, _ = causal_encoder(h) # 仅使用因果均值 return reward_head(mu_c) # 预测奖励

监控指标：
- 因果潜在变量的解释方差比（应>85%）
- 对抗头准确率（应接近随机猜测）
- 重构误差（应<0.1）

在实际应用中，我们发现当潜在空间维度比为zc:znc=1:4时，能在保持因果分离的前提下获得最佳重构效果。对于7B参数的LLM骨干，推荐使用至少128维的zc空间以确保充分表达能力。

因果表征学习提升RLHF奖励模型鲁棒性