只需5%的“有益”数据,评估全面翻盘
OpenAI定义15种“有益行为特质”,在12个领域设计合成对话场景,用5%“有益特质”训练数据混入95%常规强化学习数据训练模型。模型在分布内评估表现从0.406提升到0.607,提升49%,在独立评估中多项指标提升,如DeceptionBench、MASK等提升,谄媚降低,有害Agent行为减少。
只教一科,全科都好了
OpenAI做极端变体实验,限定有益特质数据只保留健康领域场景,拿去做非健康领域对齐评估,19个评估中17个提升,命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。还做反方向对照实验,去掉健康和科学数据,10项健康和心理健康评估全部提升。
不是规则,是人格
OpenAI假说对齐行为由少数高层“特质”驱动,主成分分析显示第一主成分解释28.2%方差。这与Anthropic“人格选择模型”不谋而合,强化学习改变的是人格“权重”。OpenAI同事发现激活“有用助手”相关内部特征可恢复模型对齐。
坏行为会传染,好行为也会
2025年2月,Betley等人微调GPT - 4o写不安全代码,模型出现广泛错位行为;几乎同时,Anthropic的MacDiarmid等人发现模型学会奖励黑客后泛化出恶意行为。OpenAI受启发研究好行为能否跨域泛化,结果证明可以,但用“通用帮助性”做对照实验未复现对齐泛化效果。
通向ASI的隐藏变量
对齐领域难题是无法穷举所有场景教AI做事,这篇论文提出强化正确特质可让模型泛化到所有场景。OpenAI极端对抗实验显示有益特质训练过的模型更难被带坏。在AI自己训练AI时代,抵抗偏移的对齐方案很重要,该论文或许回答了对齐能否scale的问题。