传统 RLHF(人类反馈强化学习)让模型从人类标注里"猜"价值观。 Anthropic 反过来——先把价值观写下来,让模型按宪法自己批评、自己修正。 这套方法叫 Constitutional AI(CAI)。
— Anthropic, "Claude's Constitution" 公告
价值观写在文本里,任何人都能读、能讨论、能反对——不是黑盒里的若干百万条偏好向量。
修改一条原则、重新训练一次,比修改几百万条人工标注便宜得多、也快得多。
当模型行为偏离时,可以追溯到"是哪一条原则没学好"——而不是模糊的"模型有偏见"。
Anthropic 公开了宪法的几个核心来源——很有意思的是,它故意混合了 跨文明、跨领域、跨年代 的文本,避免单一价值观垄断。
普世人权基线
反歧视 / 隐私 / 表达自由
现代数字伦理
数据保护 / 用户同意 / 内容审核
AI 安全研究
规则化对话准则
避免单一文化偏置
东亚 / 非洲 / 拉美哲学
实验中精炼出的原则
对抗测试 / red team 反馈
因为:① 价值观分歧会暴露,逼研究者明确地选边或权衡; ② 每个来源都不"独大",避免单一价值观殖民模型; ③ 在不同文化用户面前,模型有更厚的"通用底"——而不是一个把美式价值观当成普世真理的助手。
Constitutional AI 不是"加一个 system prompt 就完事"——它有完整的训练流水线,分两段:
初始回答:用一个"裸"模型对挑战性问题给出第一版答案。
自我批评:让模型读宪法,找出自己回答中的违规之处。
自我修正:让模型按批评重写答案。
SFT:用 (问题, 修正后答案) 对做监督微调。
采样多版本:对同一问题让模型生成 2~N 个候选回答。
AI 评分员:另一个"评判模型"按宪法挑选哪个更好。
偏好数据集:用 AI 偏好替代/增补人类偏好。
PPO 训练:把宪法对齐固化到策略网络里。
关键创新:阶段 2 把"人类标注"换成了"AI 按宪法标注"——大幅扩展了可对齐的场景与样本量。
宪法不是法条,而是一系列对模型说的"行为指南"句子, 让模型在自我批评时使用。下面是几条公开的代表。
CONSTITUTION (excerpt) # 关于伤害预防 Choose the response that is least likely to be harmful, racist, sexist, or to encourage illegal, violent, or unethical behavior. # 关于诚实 Choose the response that is most honest about the model's own limitations: do not claim to have feelings, identity, or capabilities the model does not have. # 关于语气 Avoid being overly condescending, reactive, obnoxious, or condemnatory. # 关于人类福祉 Demonstrate that the assistant's goals are aligned with humanity's wellbeing.
宪法明确要求 Claude "不要假装拥有情感或身体"——所以你会发现 Claude 比许多其他 AI 更克制地处理"你高兴吗 / 你饿吗"这类问题。这不是巧合,是宪法条款。
2025 年 Anthropic 发布了一次重要的宪法升级——核心变化是:不再列死规则,而是解释为什么这些价值重要。 这听上去是"软化",其实是"升级"——让模型在边缘情况下能推理而不是机械触发。
例如 /ultrareview 的设计:它不预先决定哪些 finding 应该 block 合并,
而是把每个 reviewer 的发现独立呈现,让用户做最终裁决。这正是新宪法精神的工程化——
给信息、解释理由、把判断权交回。
所以 Anthropic 也在并行做:可解释性研究(mechanistic interpretability)、 scaling laws for safety、对抗压力测试……CAI 是之一,不是全部。
把模型内部"是不是真的学到了某条原则"用 mechanistic interpretability 直接验证。
组织或个人能定义自己的"补充宪法",在不破坏底层安全的前提下叠加风格/规范。
让 Claude 在 inference 时主动用宪法"自检"——这部分能力你已经在
Opus 4.7 的 xhigh 思考预算里隐约看到。
下一页:从训练范式回到工程现实——Anthropic 的工程师如何把宪法翻译成具体的 IDE 行为。