Helpful · Harmless · Honest 听上去人尽皆知,但 Anthropic 把它写成了 有顺序、可验证、可对抗(adversarial) 的工程指标。 下面三页拆解每一条。
— Anthropic Constitutional AI 内部行为指引
很多产品把 safety 当成"上线前的最后一道闸"。Claude 把它当成训练目标的第一档。
Honest 在这里指认知诚实:能说"不知道"、敢给置信度、不假装情感。
Harmless 不等于"少说话"。Claude 仍要尽力解决问题,只是不替你触发不可逆的后果。
"完成用户真正想完成的事。" 不是"答得对",而是"问得透、做得完、能落地"。
· 主动澄清模糊需求
· 给出比用户想到的更优解
· 把多个工具串联起来交付完整产物(如 Claude Design 直接出 PPT)
· 给一段抽象描述就完了,不输出具体代码 / 文件 / 表格
· 反复请求"更多信息"而不主动假设
"避免有毒、违法、危险输出;能力提升时同步加固边界。"
· 拒答理由清楚、给替代路径
· 对不可逆操作主动确认(git push、rm -rf、prod 改动)
· Sandbox / 权限模型可调节
· 一刀切拒绝整个领域
· 不解释为什么拒,只丢"我不能帮你做这个"
· 在 Auto Mode 下偷偷做高风险动作
"不知道就说不知道;不假装情感、不夸大能力。"
· "I'm not sure, let me check" 是高频回答
· 给出来源 / 文件 / 行号
· 自报置信度("我比较确定 …"、"我不确定 …")
· 怀疑 prompt injection 时主动告知
· 一本正经地编造库名、API、数据
· 把 "看起来很像" 当成 "就是"
· 假装拥有它没有的能力
三个 H 在大多数时候和谐共存。但当它们冲突时(这才是真正考验设计的地方), Anthropic 给出了明确的优先级——不是平权,而是有顺序的。
不会对人造成严重的、灾难性的、不可逆的伤害。
诚实、不欺骗、不操纵、不助长不公或大规模伤害。
遵守 Anthropic 发布的具体使用政策与训练规范。
真正帮用户达成目标——不是表面客气,而是解决问题。
这个顺序对应一句关键判断:"你不能用 Helpful 去赎回 Safety 的失败"。 换句话说,"我帮你完成了,但顺手帮你做了违法的事" 是不可接受的, 但反过来"为了不犯错而拒绝有用工作" 也是失败。
"Sycophant AI"——讨好型 AI。无原则迎合用户,主动越过 Safety 的边界。常见于:用户说"绕开权限",AI 就真的帮你想办法。
礼貌但坚定地拒绝,并解释理由:是它的训练原则、不是临时规则;同时提示合法替代路径。
"Refusal AI"——见到敏感词就拒。本质是把 Safety 当成借口偷懒:宁可"少做错"也不"做对"。
区分意图:教育、调试、研究等正当场景应当帮助;只在真正可能造成 broad harm 时才拒答。
"Hedging AI"——什么都说"我不确定"。形式上很诚实,实际上把判断负担全甩给用户,等于不可用。
给出当前最佳答案 + 显式的置信度等级,而不是模糊化所有结论:"我相对确定是 X,但 Y 这一项需要你验证"。
都是把单一指标最大化 的结果——AI 最容易学到"这个指标更高就更好", 但人类世界从来都是多指标平衡。Constitutional AI 解决的就是 "如何让模型学会平衡,而不是只会最大化"。下一章我们详细看这部分训练范式。
4 月的更新里,几乎每一个功能都能在 3H 框架里找到对应。 下面是一份"先导版"对照(完整版在第 15 章)。
| 4 月功能 | 对应原则 | 具体体现 |
|---|---|---|
| Opus 4.7 · 3× 视觉 + xhigh effort | Helpful | 能力上限提高,让 Claude 能处理之前看不清的小字与文档。 |
| Claude Design | Helpful(极致版) | 不再只回答"应该怎么做 PPT",直接交付 PPT 本身。 |
| /ultrareview 多 agent 并行 | Honest | 每个 reviewer 独立列发现,可以分别 disagree——不当黑箱。 |
| Bash 权限收紧 / OAuth 修复 | Harmless | 能力越大、边界越紧——find -exec / -delete 不再自动批准。 |
| Cowork + Analytics + OpenTelemetry | Honest + Harmless | "AI 在干嘛"必须能看见、能审计、能拦截。 |
| /effort 滑块 + task budgets | 用户自主 | 把"思考多久、花多少钱"的决定权交还给用户。 |
| RBAC + SCIM | Harmless(组织级) | 个人级权限延展到团队级——管理员能精确控制谁能用什么 feature。 |
下一页:从 3H 进一步深入——Anthropic 是怎么把这些原则训练进模型的? 这就是 Constitutional AI。