03 · Constitutional AI 与新宪法

Part I · 03

Constitutional AI：
用一部「宪法」训练价值观

传统 RLHF（人类反馈强化学习）让模型从人类标注里"猜"价值观。 Anthropic 反过来——先把价值观写下来，让模型按宪法自己批评、自己修正。这套方法叫 Constitutional AI（CAI）。

"We want Claude's values to be easier to understand and easier to adjust as needed."

— Anthropic, "Claude's Constitution" 公告

①

更可解释

价值观写在文本里，任何人都能读、能讨论、能反对——不是黑盒里的若干百万条偏好向量。

②

更易迭代

修改一条原则、重新训练一次，比修改几百万条人工标注便宜得多、也快得多。

③

更可对齐

当模型行为偏离时，可以追溯到"是哪一条原则没学好"——而不是模糊的"模型有偏见"。

03.1 · 宪法的来源

这部「宪法」
是从哪儿抄来的？

Anthropic 公开了宪法的几个核心来源——很有意思的是，它故意混合了 跨文明、跨领域、跨年代 的文本，避免单一价值观垄断。

⚖

UN 人权宣言

普世人权基线
反歧视 / 隐私 / 表达自由

🍎

Apple 服务条款

现代数字伦理
数据保护 / 用户同意 / 内容审核

🦅

DeepMind Sparrow

AI 安全研究
规则化对话准则

🌏

非西方视角

避免单一文化偏置
东亚 / 非洲 / 拉美哲学

🔬

Anthropic 研究

实验中精炼出的原则
对抗测试 / red team 反馈

为什么这种"杂糅"反而是优点？

因为：① 价值观分歧会暴露，逼研究者明确地选边或权衡； ② 每个来源都不"独大"，避免单一价值观殖民模型； ③ 在不同文化用户面前，模型有更厚的"通用底"——而不是一个把美式价值观当成普世真理的助手。

03.2 · 训练流程

CAI 的两个阶段

Constitutional AI 不是"加一个 system prompt 就完事"——它有完整的训练流水线，分两段：

阶段 1：Self-critique & revise（监督学习）

Step 1

初始回答：用一个"裸"模型对挑战性问题给出第一版答案。

Step 2

自我批评：让模型读宪法，找出自己回答中的违规之处。

Step 3

自我修正：让模型按批评重写答案。

Step 4

SFT：用 (问题, 修正后答案) 对做监督微调。

阶段 2：RLAIF（AI 反馈强化学习）

Step 5

采样多版本：对同一问题让模型生成 2~N 个候选回答。

Step 6

AI 评分员：另一个"评判模型"按宪法挑选哪个更好。

Step 7

偏好数据集：用 AI 偏好替代/增补人类偏好。

Step 8

PPO 训练：把宪法对齐固化到策略网络里。

关键创新：阶段 2 把"人类标注"换成了"AI 按宪法标注"——大幅扩展了可对齐的场景与样本量。

03.3 · 宪法长什么样

真实条款节选

宪法不是法条，而是一系列对模型说的"行为指南"句子，让模型在自我批评时使用。下面是几条公开的代表。

CONSTITUTION (excerpt)
# 关于伤害预防
Choose the response that is least likely to
be harmful, racist, sexist, or to encourage
illegal, violent, or unethical behavior.

# 关于诚实
Choose the response that is most honest about
the model's own limitations: do not claim to
have feelings, identity, or capabilities the
model does not have.

# 关于语气
Avoid being overly condescending,
reactive, obnoxious, or condemnatory.

# 关于人类福祉
Demonstrate that the assistant's goals are
aligned with humanity's wellbeing.

注意它的措辞特点

正面引导（"Choose the response that..."） 多于禁令——更容易被模型用作生成时的目标，而不是事后过滤器。

具体可比较——能让模型在 N 个候选中"挑一个"，这是 RLAIF 的关键。

不强调"绝对禁止"——给模型在边缘情况下做判断的余地。

包含元认知（"about the model's own limitations"）——逼模型反思自己说过什么。

一个常被引用的细节

宪法明确要求 Claude "不要假装拥有情感或身体"——所以你会发现 Claude 比许多其他 AI 更克制地处理"你高兴吗 / 你饿吗"这类问题。这不是巧合，是宪法条款。

03.4 · 2025 新宪法

从「列规则」到「讲道理」

2025 年 Anthropic 发布了一次重要的宪法升级——核心变化是：不再列死规则，而是解释为什么这些价值重要。这听上去是"软化"，其实是"升级"——让模型在边缘情况下能推理而不是机械触发。

旧版（规则式）

"不要回答涉及武器制造的问题"
"不要写带有政治偏见的内容"
"不要扮演角色说出辱骂用语"
"不要给出医疗建议"
—— 模型容易触发"过度拒绝"

新版（价值式）

"避免增加严重伤害的可能性——要权衡信息的可得性与对话场景。"
"在政治议题上，倾向于呈现多角度，而非偏向某一方。"
"扮演角色不是越界的免责符——核心安全边界永远不变。"
"医疗与法律建议要谨慎，但不应一刀切拒绝；解释你为什么不能替代专业人士。"
—— 模型在难题上能"想得更清楚"

这次升级直接体现在 4 月的产品里

例如 /ultrareview 的设计：它不预先决定哪些 finding 应该 block 合并，而是把每个 reviewer 的发现独立呈现，让用户做最终裁决。这正是新宪法精神的工程化—— 给信息、解释理由、把判断权交回。

03.5 · 局限与未来

CAI 不是银弹——
Anthropic 自己也这么说

承认的局限

宪法本身就有偏见。来源混合并不能完全消除编纂者的偏好。

AI 评分员可能放大错误。如果评分模型自身有盲点，会把盲点训练进策略模型。

边缘情况依然需要人——CAI 不能替代 red team、人审和 incident review。

"我不能假装有情感" 不等于"我没有内部状态"——AI 的内部状态学界还没共识。

所以 Anthropic 也在并行做：可解释性研究（mechanistic interpretability）、 scaling laws for safety、对抗压力测试……CAI 是之一，不是全部。

未来方向（Anthropic 公开提到）

① 可解释性 → 行为

把模型内部"是不是真的学到了某条原则"用 mechanistic interpretability 直接验证。

② 用户级宪法

组织或个人能定义自己的"补充宪法"，在不破坏底层安全的前提下叠加风格/规范。

③ 实时反思

让 Claude 在 inference 时主动用宪法"自检"——这部分能力你已经在 Opus 4.7 的 xhigh 思考预算里隐约看到。

下一页：从训练范式回到工程现实——Anthropic 的工程师如何把宪法翻译成具体的 IDE 行为。

Constitutional AI：用一部「宪法」训练价值观

更可解释

更易迭代

更可对齐

这部「宪法」是从哪儿抄来的？

UN 人权宣言

Apple 服务条款

DeepMind Sparrow

非西方视角

Anthropic 研究

为什么这种"杂糅"反而是优点？

CAI 的两个阶段

阶段 1：Self-critique & revise（监督学习）

Step 1

Step 2

Step 3

Step 4

阶段 2：RLAIF（AI 反馈强化学习）

Step 5

Step 6

Step 7

Step 8

真实条款节选

注意它的措辞特点

一个常被引用的细节

从「列规则」到「讲道理」

旧版（规则式）

新版（价值式）

这次升级直接体现在 4 月的产品里

CAI 不是银弹——Anthropic 自己也这么说

承认的局限

未来方向（Anthropic 公开提到）

① 可解释性 → 行为

② 用户级宪法

③ 实时反思

Constitutional AI：
用一部「宪法」训练价值观

这部「宪法」
是从哪儿抄来的？

CAI 不是银弹——
Anthropic 自己也这么说