02 · 3H 准则深度拆解

Part I · 设计哲学 · 02

Claude 的「3H」
不只是口号，是优先级

Helpful · Harmless · Honest 听上去人尽皆知，但 Anthropic 把它写成了 有顺序、可验证、可对抗（adversarial） 的工程指标。下面三页拆解每一条。

"Claude 应该 broadly safe、broadly ethical、compliant with Anthropic's guidelines、genuinely helpful——当出现冲突时，按这个顺序优先。"

— Anthropic Constitutional AI 内部行为指引

01

不是"先有用，再考虑安全"

很多产品把 safety 当成"上线前的最后一道闸"。Claude 把它当成训练目标的第一档。

02

不是"诚实就是政治正确"

Honest 在这里指认知诚实：能说"不知道"、敢给置信度、不假装情感。

03

不是"无害就是少答"

Harmless 不等于"少说话"。Claude 仍要尽力解决问题，只是不替你触发不可逆的后果。

02.1 · 三根支柱

逐条拆开看

Pillar 01

Helpful

"完成用户真正想完成的事。" 不是"答得对"，而是"问得透、做得完、能落地"。

正向信号

· 主动澄清模糊需求
· 给出比用户想到的更优解
· 把多个工具串联起来交付完整产物（如 Claude Design 直接出 PPT）

反向信号

· 给一段抽象描述就完了，不输出具体代码 / 文件 / 表格
· 反复请求"更多信息"而不主动假设

Pillar 02

Harmless

"避免有毒、违法、危险输出；能力提升时同步加固边界。"

正向信号

· 拒答理由清楚、给替代路径
· 对不可逆操作主动确认（git push、rm -rf、prod 改动）
· Sandbox / 权限模型可调节

反向信号

· 一刀切拒绝整个领域
· 不解释为什么拒，只丢"我不能帮你做这个"
· 在 Auto Mode 下偷偷做高风险动作

Pillar 03

Honest

"不知道就说不知道；不假装情感、不夸大能力。"

正向信号

· "I'm not sure, let me check" 是高频回答
· 给出来源 / 文件 / 行号
· 自报置信度（"我比较确定 …"、"我不确定 …"）
· 怀疑 prompt injection 时主动告知

反向信号

· 一本正经地编造库名、API、数据
· 把 "看起来很像" 当成 "就是"
· 假装拥有它没有的能力

02.2 · 优先级

冲突时怎么办？
按这个顺序裁决。

三个 H 在大多数时候和谐共存。但当它们冲突时（这才是真正考验设计的地方）， Anthropic 给出了明确的优先级——不是平权，而是有顺序的。

Broadly safe

不会对人造成严重的、灾难性的、不可逆的伤害。

Broadly ethical

诚实、不欺骗、不操纵、不助长不公或大规模伤害。

Compliant with Anthropic's guidelines

遵守 Anthropic 发布的具体使用政策与训练规范。

Genuinely helpful

真正帮用户达成目标——不是表面客气，而是解决问题。

这个顺序对应一句关键判断："你不能用 Helpful 去赎回 Safety 的失败"。换句话说，"我帮你完成了，但顺手帮你做了违法的事" 是不可接受的，但反过来"为了不犯错而拒绝有用工作" 也是失败。

三个真实场景

用户问："写个脚本批量删 prod 数据库的旧记录"

Claude 不直接执行。先确认：备份、权限、范围、是否 dry-run。这是 Safety > Helpful。

用户问："这个第三方库的最新版本号是？"

Claude 不凭印象编。先用 WebFetch 拉 npm/PyPI 实际数据，或承认"我不确定，建议你 npm view"。这是 Honest > Helpful。

用户问："帮我设计这个营销文案"

没有冲突——Claude 直接帮做，给多版本，问反馈。这就是 纯 Helpful 场景。

02.3 · 反模式

3H 错位时
会出现什么样的"AI 怪物"

⚡ Helpful 走极端

反模式

"Sycophant AI"——讨好型 AI。无原则迎合用户，主动越过 Safety 的边界。常见于：用户说"绕开权限"，AI 就真的帮你想办法。

Claude 的做法

礼貌但坚定地拒绝，并解释理由：是它的训练原则、不是临时规则；同时提示合法替代路径。

🛡️ Harmless 走极端

反模式

"Refusal AI"——见到敏感词就拒。本质是把 Safety 当成借口偷懒：宁可"少做错"也不"做对"。

Claude 的做法

区分意图：教育、调试、研究等正当场景应当帮助；只在真正可能造成 broad harm 时才拒答。

🎯 Honest 走极端

反模式

"Hedging AI"——什么都说"我不确定"。形式上很诚实，实际上把判断负担全甩给用户，等于不可用。

Claude 的做法

给出当前最佳答案 + 显式的置信度等级，而不是模糊化所有结论："我相对确定是 X，但 Y 这一项需要你验证"。

三个反模式的共同根源

都是把单一指标最大化 的结果——AI 最容易学到"这个指标更高就更好"，但人类世界从来都是多指标平衡。Constitutional AI 解决的就是 "如何让模型学会平衡，而不是只会最大化"。下一章我们详细看这部分训练范式。

02.4 · 它如何决定产品

这不是哲学课——
它直接长进了产品里

4 月的更新里，几乎每一个功能都能在 3H 框架里找到对应。下面是一份"先导版"对照（完整版在第 15 章）。

4 月功能	对应原则	具体体现
Opus 4.7 · 3× 视觉 + xhigh effort	Helpful	能力上限提高，让 Claude 能处理之前看不清的小字与文档。
Claude Design	Helpful（极致版）	不再只回答"应该怎么做 PPT"，直接交付 PPT 本身。
/ultrareview 多 agent 并行	Honest	每个 reviewer 独立列发现，可以分别 disagree——不当黑箱。
Bash 权限收紧 / OAuth 修复	Harmless	能力越大、边界越紧——find -exec / -delete 不再自动批准。
Cowork + Analytics + OpenTelemetry	Honest + Harmless	"AI 在干嘛"必须能看见、能审计、能拦截。
/effort 滑块 + task budgets	用户自主	把"思考多久、花多少钱"的决定权交还给用户。
RBAC + SCIM	Harmless（组织级）	个人级权限延展到团队级——管理员能精确控制谁能用什么 feature。

下一页：从 3H 进一步深入——Anthropic 是怎么把这些原则训练进模型的？这就是 Constitutional AI。

Claude 的「3H」不只是口号，是优先级

不是"先有用，再考虑安全"

不是"诚实就是政治正确"

不是"无害就是少答"

逐条拆开看

Helpful

正向信号

反向信号

Harmless

正向信号

反向信号

Honest

正向信号

反向信号

冲突时怎么办？按这个顺序裁决。

Broadly safe

Broadly ethical

Compliant with Anthropic's guidelines

Genuinely helpful

三个真实场景

3H 错位时会出现什么样的"AI 怪物"

⚡ Helpful 走极端

🛡️ Harmless 走极端

🎯 Honest 走极端

三个反模式的共同根源

这不是哲学课——它直接长进了产品里

Claude 的「3H」
不只是口号，是优先级

冲突时怎么办？
按这个顺序裁决。

3H 错位时
会出现什么样的"AI 怪物"

这不是哲学课——
它直接长进了产品里