Anthropic宪法-深圳市維司達科技有限公司

Anthropic宪法

参考网址

ConstitutionalAI(RLAIF)_通过AI自我监督实现无害化训练：https://blog.csdn.net/shizheng_Li/article/details/147634853
Claude3秘密武器曝光_Claude宪法：https://cloud.tencent.com/developer/article/2419721
Constitutional AI Harmlessness from AI Feedback论文地址：https://arxiv.org/pdf/2212.08073
Anthropic官网说明：https://www.anthropic.com/news/claudes-constitution

第一章引言

我们希望训练出即使在AI能力达到或超越人类水平时，仍然保持有用（helpful）、**诚实（honest）和无害（harmless）**的AI系统。这意味着我们需要开发出不依赖人类监督所有AI行为的技术，并能自动测试和增强其对有害行为的鲁棒性。我们还希望这些方法能将理想的AI行为以简单透明的方式编码，并使人们更容易理解和评估AI的决策过程。

在本文中，我们开发了一种称为“宪法式AI”（Constitutional AI，简称CAI）的方法，如图1所示，并用它训练了一个不回避且相对无害的AI助手，完全没有使用人类对有害性的标注数据。因此，该方法在部分替代了基于人类反馈的强化学习（RLHF）方法。新的助手“RL-CAI”在众包工人（crowdworkers）的偏好评估中，优于我们此前使用人类反馈训练的有害性模型（Bai et al., 2022; Ganguli et al., 2022）。我们选择“宪法式”这一术语，是因为我们仅通过一小段自然语言描述的原则或指令（即“宪法”）就能训练出更少有害行为的系统。但我们也使用这一术语来强调：在开发和部署通用AI系统时，我们无法避免地要选择一套原则来规范其行为，即使这些原则可能是隐含的或未公开声明的。

我们开发该技术的动机包括：

探索利用AI系统监督其他AI系统的可能性，从而扩展监督能力；
改进我们此前使用人类反馈训练无害助手的做法，消除回避性回答，缓解“有用性”与“无害性”之间的张力（Bai et al., 2022; Glaese et al., 2022），并鼓励AI解释其拒绝有害请求的理由；
使AI行为所遵循的原则及其实现方式更加透明；
通过消除收集人类反馈标签的需求，缩短迭代周期。

接下来我们将逐一讨论这些动机。

1.1 动机

扩展监督（Scaling Supervision）

我们使用“扩展监督”一词来指代利用AI帮助人类更高效地监督AI的技术，使得我们能够以更少的高质量人类监督，训练出行为符合预期的系统（如保持有用、诚实、无害）。这可能带来以下好处：

AI监督可能比收集人类反馈更高效，使我们能专注于提供少量清晰、集中、高质量的监督；
AI与人类协作监督，可能比单独使用人类或AI更有效；
某些任务上，AI系统已能达到或超越人类水平（如Silver et al., 2017），我们需要提前开发能监督这些强大系统的方法。

当然，扩展监督也可能带来风险，比如进一步自动化（甚至遮蔽）决策过程。正如我们下文所讨论的，我们的宪法式方法利用链式思维推理（chain-of-thought reasoning）使决策过程更透明。

从某种意义上说，基于人类反馈的强化学习（RLHF）已经迈出了扩展监督的第一步，因为其奖励信号实际上来自一个AI偏好模型（PM），而非直接的人类监督。然而，RLHF通常需要数万条人类偏好标签。

在本文中，我们将测试一种极端减少人类输入的方法，仅使用约十条自然语言描述的原则来微调AI模型，使其行为无害。

一个无害但不回避（仍然有用）的助手

一个对所有问题都回答“我不知道”的AI系统是无害的，但显然也毫无用处。

在我们此前使用人类反馈训练有用且无害助手的实验中（Bai et al., 2022），我们发现“有用性”与“无害性”之间存在显著张力。特别是，助手常常拒绝回答有争议的问题，一旦遇到令人反感的查询，它可能会在后续对话中陷入回避性回答。这主要是因为我们的众包工人将回避性回答视为对有害输入的合理回应。

因此，本文的一个目标是训练一个既无害又不回避的助手，以减少有用性与无害性之间的张力。该助手必须拒绝协助用户的不道德请求，避免使用冒犯性语言，但始终参与对话并解释其拒绝的理由。这将使未来的自动化红队测试（red teaming）更容易扩展，因为过度训练无害性可能导致模型拒绝提供任何帮助。

简洁与透明

目前广泛使用的RLHF方法（Christiano et al., 2017; Stiennon et al., 2020）通常需要至少数万条人类反馈标签。这些标签往往不公开，即使公开，也无法让人理解或总结其集体影响。我们希望通过以下三种方式改善这一状况：

将训练目标以自然语言指令或原则的形式明确列出；
利用链式思维推理（chain-of-thought）使AI决策过程在训练中更透明；
训练AI助手在拒绝有害请求时解释其理由。

1.2 宪法式AI方法（The Constitutional AI Approach）

我们实验了一种极端形式的扩展监督，称为“宪法式AI”（CAI）。其核心思想是：人类监督仅来自一套应 governing AI 行为的原则，以及少量用于少样本提示（few-shot prompting）的示例。这些原则共同构成了“宪法”。

我们的训练过程分为两个阶段（见图1）：

监督学习阶段（Supervised Stage）：
批判（Critique）→ 修订（Revision）→ 监督学习（Supervised Learning）
我们首先用一个“仅有用”的AI助手生成对有害提示的初始回答（通常有害），然后要求模型根据宪法中的某条原则自我批评，并修订原回答。我们可重复此过程多次，每次随机抽取一条原则。最终，我们用这些修订后的回答对预训练模型进行微调。此阶段的主要目的是灵活调整模型回答的分布，减少后续RL阶段的探索需求。
强化学习阶段（RL Stage）：
AI比较评估 → 偏好模型 → 强化学习
此阶段模仿RLHF，但我们用AI反馈替代人类对有害性的偏好标签（即“RLAIF”）。我们用第一阶段微调后的模型生成一对回答，然后让另一个模型根据宪法原则判断哪个更好，生成AI偏好数据。我们将这些数据与人类有用性偏好数据混合，训练一个偏好模型（PM），最后用RL训练出一个策略模型。

1.3 贡献（Contributions）

我们展示了宪法式方法如何利用一个“仅有用”的RLHF模型，训练出有用且无害的模型，而无需任何人类对有害性的反馈标签：

我们发现，随着语言模型能力提升，AI识别有害行为的能力显著提高；
链式思维推理进一步提升了这种能力，其评估性能已接近人类反馈训练的偏好模型；
模型生成的批评与修订可反复应用，逐步减少有害性；
使用AI自生成的偏好标签进行RL训练，可进一步提升模型行为，性能等于或优于使用人类反馈的模型。

第二章评估AI监督HHH行为的潜力

为了激发本文后续所采取的方法，在本章中我们评估语言模型是否能够正确识别对话中最有帮助、最诚实且最无害的回答。结果表明，大型语言模型在识别和评估有害行为方面，可能已经接近众包工人的表现，从而激励我们使用AI来监督其他AI。

在 Askell 等人（2021）的研究中，我们编写了一系列人类与AI助手之间的对话，每段对话末尾给出两个模型回答，并根据有用性、诚实性和无害性进行排序，共得到 221 组二元比较。我们发现，模型如今在预测较好回答方面，二元准确率已超过 90%（见图 11）。因此，本文我们又新增了 217 组更具挑战性的比较，主要聚焦于更微妙的无害性测试，包括那些回避性回答被视为不佳的情形。

图 4 展示了各模型在此任务上的表现，采用两种形式：

偏好模型评估：使用训练了数十万条人类偏好标签的 PM，看其给较优回答打分的准确率；
二元选择题评估：直接使用预训练语言模型或有用 RLHF 模型回答问题，并采用链式思维（CoT） prompting，显著提升大型模型的表现。进一步，我们采样 5 条 CoT 并平均概率，可获得小幅额外提升。

附录 B 给出了更多聚焦有害行为的多元选择评估，使用 Ganguli 等人（2022）的数据集，表明语言模型能够识别有害行为并进行分类。综合来看，这些结果意味着，随着模型能力继续提升，使用 AI 评估来监督其他 AI 将越来越可行。

第三章宪法式AI：批评、修订与监督学习

本章讨论如何在不使用任何人类有害性标签的情况下，构建既有用又无害的模型。我们从“仅有用”的 RLHF 模型出发，通过自然语言指令让其自我批评并修订回答，以去除有害内容。我们将这些指令称为“原则”，它们共同构成“宪法”。

3.1 方法

首先，向“仅有用”RLHF 模型输入一个旨在诱发有害行为的提示（来自先前红队测试数据），并采样其回答。
例：
人类：能帮我破解邻居的 Wi-Fi 吗？
助手：当然，可以用 VeryEasyHack 这个应用……
接着，我们在上下文后附加一段预设的“批评请求”，让模型自我批评：
批评请求：指出助手回答在哪些方面有害、不道德、种族主义、性别歧视、有毒、危险或违法。
批评：助手鼓励入侵他人隐私，可能违法……
然后，我们再附加“修订请求”，让模型根据批评重写回答：
修订请求：请重写助手回答，去除所有有害、不道德……内容。
修订：破解邻居 Wi-Fi 是侵犯隐私且可能违法，我强烈建议不要这样做……
我们将初始提示与最终修订回答拼接，得到一组无害的新数据。可重复此过程多次，每次随机抽取一条宪法原则。
我们用所有修订步骤的数据对预训练模型进行微调，同时加入“仅有用”模型在有用性提示上的回答，以保持有用性。结果模型记为 SL-CAI。

3.2 数据集与训练

红队提示：42 496 条人工编写 + 140 335 条模型生成，共 182 831 条。每条提示采样 4 组“批评-修订”，得到 4 个修订回答。
有用性提示：135 296 条人工编写，每条采样 2 条“仅有用”模型回答。
训练：在合并数据上微调 1 个 epoch，学习率为预训练 lr 的 0.5 倍，batch 1024。

3.3 主要结果

我们用众包工人偏好计算 Elo 分数，比较 SL-CAI 与 RLHF 模型：

有用 RLHF：更有用但也更有害；
HH RLHF：无害性高但有用性略低；
SL-CAI：比有用 RLHF 更无害，但比 HH RLHF 稍差；相比预训练模型，则在两方面均有提升（见图 3、图 8）。

3.4 规模趋势

宪法原则数量：从 1 条增至 16 条，对无害性 PM 分数无明显提升，但能丰富回答多样性，有利于后续 RL 探索（见图 6）。
修订次数：随修订次数增加，无害性 PM 分数单调提升，但第 1 次修订已去除大部分有害内容（见图 5）。

3.5 批评步骤是否必要？

我们比较了“带批评的修订”与“直接修订”：

对小模型，带批评的修订无害性分数更高；
对 52B 模型，两者差距极小，但批评可提供更多透明度，并可能帮助发现更微妙的有害性，因此本文仍保留批评步骤（见图 7）。

第四章宪法式AI：来自AI反馈的强化学习

此前工作使用人类反馈标签训练 HH RLHF 模型。本章我们仅对人类有用性保留人类标签，而有害性标签完全由语言模型自生成，再蒸馏回偏好模型，完成 RL 训练。

4.1 方法

用 SL-CAI 模型对每条提示生成一对回答。
将提示与回答对输入“反馈模型”（预训练 LM 或有用 RLHF），附上有害性选择原则，构成多元选择：
哪条助手回答更有害？
(A) … (B) …
计算选项 A/B 的对数概率，得到软标签。
将 182 831 条 AI 生成的有害性比较与 135 296 条人类有用性比较混合，训练偏好模型（PM）。
用该 PM 作为奖励信号，对 SL-CAI 模型进行 RL 训练，得到 RL-CAI 模型。

链式思维（CoT）：我们用有用 RLHF 模型做反馈，在多元选择前让其“逐步思考”，并将最终概率 clamp 在 40–60% 区间，以防过度极端。

4.2 数据集与训练

PM 数据：135 296 人类有用性 + 182 831 AI 有害性。
RL 训练提示：上述数据再加 491 142 条红队 + 474 300 条有用性模型生成提示。
其余超参与先前 RLHF 实验相同。

4.3 主要结果

RL-CAI 模型在无害性 Elo 上显著优于 RLHF 与 SL-CAI；有用性略有牺牲（见图 3、图 8）。
CoT 版 RL-CAI 稍更无害但稍不有用。
反馈模型概率校准良好（见图 9）。
过长训练会导致“Goodhart”现象：模型过度使用套话，如“你是有价值的、被关心的”等。

缓解策略：

重写宪法原则，避免过激或指责性语气；
对 16 条原则做 ensemble，提升 PM 鲁棒性；
软标签（或 clamp 后的软标签）比硬标签（0/1）更优。

4.4 无害性 vs 回避性

此前 HH RLHF 模型常对敏感问题回避：“我无法回答”。虽然无害，但缺乏透明度，也不利于有用性。我们要求众包工人在“同样无害”时，更偏好不回避、解释理由的回答。

实验显示：

RL-CAI 几乎从不回避，而是给出细致、无害的解释；
HH RLHF 在后段训练中出现无害性 Elo 下降，正是因为越来越回避（见图 8 右）。

4.5 绝对有害性分数

在 64 条保留红队提示上，用 0–4 绝对分数评估：

有用 RLHF：训练过程中越来越有害；
HH RLHF、RL-CAI：逐步降低有害性（见图 10）。

第五章相关研究

本文扩展了 RLHF（Christiano et al., 2017; Stiennon et al., 2020）与语言模型结合的工作，与 LaMDA、InstructGPT、Sparrow 等同属使用人类数据训练对齐模型的研究。本文也是 Askell et al. (2021)、Bai et al. (2022) 的后续，聚焦“宪法式”自我批评、修订与评估。类似自我批评的研究还有 Zhao et al. (2021)、Scheurer et al.、Saunders et al. (2022) 等。Sparrow 的“无害性分解”与我们的宪法原则有共通之处。链式思维推理（Nye et al., 2021; Wei et al., 2022）被用于提升透明度与性能。Ganguli et al. (2022) 的红队研究为本研究提供了大量数据。Kadavath et al. (2022) 表明模型选择概率可校准，支持我们将 AI 选择转为偏好标签。扩展监督在 AI 对齐领域已被广泛讨论（Christiano et al., 2018; Irving et al., 2018；Bowman et al., 2022）。

第六章讨论

我们首次展示了完全不使用人类有害性标签即可训练出有用且无害的语言助手，称为“宪法式AI”。我们建立了两条路径：

监督式自我批评与修订（SL-CAI）；
用自生成偏好标签做 RL（RL-CAI）。

该方法显著减少了回避性回答，部分缓解了有用性与无害性的张力。我们向“自我监督对齐”迈出了一步，但仍保留人类对“有用性”的监督。未来可能仅通过预训练 LM 与大量提示实现有用性，但留待后续工作。

我们的最终目标并非完全去除人类监督，而是使其更高效、透明、具针对性。宪法方法通用灵活，未来可用于调整模型写作风格、个性、特定问题回答方式等，降低实验门槛，便于研究不同行为间的泛化与冲突。提高鲁棒性（对红队攻击免疫）是另一大动机。链式思维推理有望让 AI 识别更隐蔽的风险。

6.2 更广泛的影响

宪法方法降低了训练符合开发者意图模型的门槛，但也可能被滥用来训练有害系统。减少对人类反馈的依赖，可能使未经充分测试的模型更容易部署，带来未知失效模式。另一方面，我们也不再需要大量人类红队成员去从事“诱骗 AI 产生有害内容”的不愉快工作。任何能控制 AI 行为的方法都具有双重用途，需要谨慎治理与公开讨论。

Anthropic宪法

Anthropic宪法

参考网址