Part I · 03

Constitutional AI:
用一部「宪法」训练价值观

传统 RLHF(人类反馈强化学习)让模型从人类标注里"猜"价值观。 Anthropic 反过来——先把价值观写下来,让模型按宪法自己批评、自己修正。 这套方法叫 Constitutional AI(CAI)。

"We want Claude's values to be easier to understand and easier to adjust as needed."

— Anthropic, "Claude's Constitution" 公告

更可解释

价值观写在文本里,任何人都能读、能讨论、能反对——不是黑盒里的若干百万条偏好向量。

更易迭代

修改一条原则、重新训练一次,比修改几百万条人工标注便宜得多、也快得多。

更可对齐

当模型行为偏离时,可以追溯到"是哪一条原则没学好"——而不是模糊的"模型有偏见"。

03.1 · 宪法的来源

这部「宪法」
是从哪儿抄来的?

Anthropic 公开了宪法的几个核心来源——很有意思的是,它故意混合了 跨文明、跨领域、跨年代 的文本,避免单一价值观垄断。

UN 人权宣言

普世人权基线
反歧视 / 隐私 / 表达自由

🍎
Apple 服务条款

现代数字伦理
数据保护 / 用户同意 / 内容审核

🦅
DeepMind Sparrow

AI 安全研究
规则化对话准则

🌏
非西方视角

避免单一文化偏置
东亚 / 非洲 / 拉美哲学

🔬
Anthropic 研究

实验中精炼出的原则
对抗测试 / red team 反馈

为什么这种"杂糅"反而是优点?

因为:① 价值观分歧会暴露,逼研究者明确地选边或权衡; ② 每个来源都不"独大",避免单一价值观殖民模型; ③ 在不同文化用户面前,模型有更厚的"通用底"——而不是一个把美式价值观当成普世真理的助手。

03.2 · 训练流程

CAI 的两个阶段

Constitutional AI 不是"加一个 system prompt 就完事"——它有完整的训练流水线,分两段:

阶段 1:Self-critique & revise(监督学习)

Step 1

初始回答:用一个"裸"模型对挑战性问题给出第一版答案。

Step 2

自我批评:让模型读宪法,找出自己回答中的违规之处。

Step 3

自我修正:让模型按批评重写答案。

Step 4

SFT:用 (问题, 修正后答案) 对做监督微调。

阶段 2:RLAIF(AI 反馈强化学习)

Step 5

采样多版本:对同一问题让模型生成 2~N 个候选回答。

Step 6

AI 评分员:另一个"评判模型"按宪法挑选哪个更好。

Step 7

偏好数据集:用 AI 偏好替代/增补人类偏好。

Step 8

PPO 训练:把宪法对齐固化到策略网络里。

关键创新:阶段 2 把"人类标注"换成了"AI 按宪法标注"——大幅扩展了可对齐的场景与样本量。

03.3 · 宪法长什么样

真实条款节选

宪法不是法条,而是一系列对模型说的"行为指南"句子, 让模型在自我批评时使用。下面是几条公开的代表。

CONSTITUTION (excerpt)
# 关于伤害预防
Choose the response that is least likely to
be harmful, racist, sexist, or to encourage
illegal, violent, or unethical behavior.

# 关于诚实
Choose the response that is most honest about
the model's own limitations: do not claim to
have feelings, identity, or capabilities the
model does not have.

# 关于语气
Avoid being overly condescending,
reactive, obnoxious, or condemnatory.

# 关于人类福祉
Demonstrate that the assistant's goals are
aligned with humanity's wellbeing.

注意它的措辞特点

正面引导("Choose the response that...") 多于禁令——更容易被模型用作生成时的目标,而不是事后过滤器。
具体可比较——能让模型在 N 个候选中"挑一个",这是 RLAIF 的关键。
不强调"绝对禁止"——给模型在边缘情况下做判断的余地。
包含元认知("about the model's own limitations")——逼模型反思自己说过什么。

一个常被引用的细节

宪法明确要求 Claude "不要假装拥有情感或身体"——所以你会发现 Claude 比许多其他 AI 更克制地处理"你高兴吗 / 你饿吗"这类问题。这不是巧合,是宪法条款。

03.4 · 2025 新宪法

从「列规则」到「讲道理

2025 年 Anthropic 发布了一次重要的宪法升级——核心变化是:不再列死规则,而是解释为什么这些价值重要。 这听上去是"软化",其实是"升级"——让模型在边缘情况下能推理而不是机械触发。

旧版(规则式)

  • "不要回答涉及武器制造的问题"
  • "不要写带有政治偏见的内容"
  • "不要扮演角色说出辱骂用语"
  • "不要给出医疗建议"
  • —— 模型容易触发"过度拒绝"

新版(价值式)

  • "避免增加严重伤害的可能性——要权衡信息的可得性与对话场景。"
  • "在政治议题上,倾向于呈现多角度,而非偏向某一方。"
  • "扮演角色不是越界的免责符——核心安全边界永远不变。"
  • "医疗与法律建议要谨慎,但不应一刀切拒绝;解释你为什么不能替代专业人士。"
  • —— 模型在难题上能"想得更清楚"

这次升级直接体现在 4 月的产品里

例如 /ultrareview 的设计:它不预先决定哪些 finding 应该 block 合并, 而是把每个 reviewer 的发现独立呈现,让用户做最终裁决。这正是新宪法精神的工程化—— 给信息、解释理由、把判断权交回

03.5 · 局限与未来

CAI 不是银弹——
Anthropic 自己也这么说

承认的局限

宪法本身就有偏见。来源混合并不能完全消除编纂者的偏好。
AI 评分员可能放大错误。如果评分模型自身有盲点,会把盲点训练进策略模型。
边缘情况依然需要人——CAI 不能替代 red team、人审和 incident review。
"我不能假装有情感" 不等于"我没有内部状态"——AI 的内部状态学界还没共识。

所以 Anthropic 也在并行做:可解释性研究(mechanistic interpretability)、 scaling laws for safety、对抗压力测试……CAI 是之一,不是全部

未来方向(Anthropic 公开提到)

① 可解释性 → 行为

把模型内部"是不是真的学到了某条原则"用 mechanistic interpretability 直接验证。

② 用户级宪法

组织或个人能定义自己的"补充宪法",在不破坏底层安全的前提下叠加风格/规范。

③ 实时反思

让 Claude 在 inference 时主动用宪法"自检"——这部分能力你已经在 Opus 4.7 的 xhigh 思考预算里隐约看到。

下一页:从训练范式回到工程现实——Anthropic 的工程师如何把宪法翻译成具体的 IDE 行为

Claude · April 2026 · Constitution
3 / 17