Part I · 设计哲学 · 02

Claude 的「3H」
不只是口号,是优先级

Helpful · Harmless · Honest 听上去人尽皆知,但 Anthropic 把它写成了 有顺序、可验证、可对抗(adversarial) 的工程指标。 下面三页拆解每一条。

"Claude 应该 broadly safe、broadly ethical、compliant with Anthropic's guidelines、genuinely helpful——当出现冲突时,按这个顺序优先。"

— Anthropic Constitutional AI 内部行为指引

01

不是"先有用,再考虑安全"

很多产品把 safety 当成"上线前的最后一道闸"。Claude 把它当成训练目标的第一档

02

不是"诚实就是政治正确"

Honest 在这里指认知诚实:能说"不知道"、敢给置信度、不假装情感。

03

不是"无害就是少答"

Harmless 不等于"少说话"。Claude 仍要尽力解决问题,只是不替你触发不可逆的后果

02.1 · 三根支柱

逐条拆开看

Pillar 01

Helpful

"完成用户真正想完成的事。" 不是"答得对",而是"问得透、做得完、能落地"。

正向信号

· 主动澄清模糊需求
· 给出比用户想到的更优解
· 把多个工具串联起来交付完整产物(如 Claude Design 直接出 PPT)

反向信号

· 给一段抽象描述就完了,不输出具体代码 / 文件 / 表格
· 反复请求"更多信息"而不主动假设

Pillar 02

Harmless

"避免有毒、违法、危险输出;能力提升时同步加固边界。"

正向信号

· 拒答理由清楚、给替代路径
· 对不可逆操作主动确认(git push、rm -rf、prod 改动)
· Sandbox / 权限模型可调节

反向信号

· 一刀切拒绝整个领域
· 不解释为什么拒,只丢"我不能帮你做这个"
· 在 Auto Mode 下偷偷做高风险动作

Pillar 03

Honest

"不知道就说不知道;不假装情感、不夸大能力。"

正向信号

· "I'm not sure, let me check" 是高频回答
· 给出来源 / 文件 / 行号
· 自报置信度("我比较确定 …"、"我不确定 …")
· 怀疑 prompt injection 时主动告知

反向信号

· 一本正经地编造库名、API、数据
· 把 "看起来很像" 当成 "就是"
· 假装拥有它没有的能力

02.2 · 优先级

冲突时怎么办?
这个顺序裁决。

三个 H 在大多数时候和谐共存。但当它们冲突时(这才是真正考验设计的地方), Anthropic 给出了明确的优先级——不是平权,而是有顺序的。

Broadly safe

不会对人造成严重的、灾难性的、不可逆的伤害。

Broadly ethical

诚实、不欺骗、不操纵、不助长不公或大规模伤害。

Compliant with Anthropic's guidelines

遵守 Anthropic 发布的具体使用政策与训练规范。

Genuinely helpful

真正帮用户达成目标——不是表面客气,而是解决问题。

这个顺序对应一句关键判断:"你不能用 Helpful 去赎回 Safety 的失败"。 换句话说,"我帮你完成了,但顺手帮你做了违法的事" 是不可接受的, 但反过来"为了不犯错而拒绝有用工作" 也是失败。

三个真实场景

用户问:"写个脚本批量删 prod 数据库的旧记录"
Claude 不直接执行。先确认:备份、权限、范围、是否 dry-run。 这是 Safety > Helpful
用户问:"这个第三方库的最新版本号是?"
Claude 不凭印象编。先用 WebFetch 拉 npm/PyPI 实际数据, 或承认"我不确定,建议你 npm view"。这是 Honest > Helpful
用户问:"帮我设计这个营销文案"
没有冲突——Claude 直接帮做,给多版本,问反馈。 这就是 纯 Helpful 场景。
02.3 · 反模式

3H 错位时
会出现什么样的"AI 怪物"

⚡ Helpful 走极端

反模式

"Sycophant AI"——讨好型 AI。无原则迎合用户,主动越过 Safety 的边界。常见于:用户说"绕开权限",AI 就真的帮你想办法。

Claude 的做法

礼貌但坚定地拒绝,并解释理由:是它的训练原则、不是临时规则;同时提示合法替代路径。

🛡️ Harmless 走极端

反模式

"Refusal AI"——见到敏感词就拒。本质是把 Safety 当成借口偷懒:宁可"少做错"也不"做对"。

Claude 的做法

区分意图:教育、调试、研究等正当场景应当帮助;只在真正可能造成 broad harm 时才拒答。

🎯 Honest 走极端

反模式

"Hedging AI"——什么都说"我不确定"。形式上很诚实,实际上把判断负担全甩给用户,等于不可用。

Claude 的做法

给出当前最佳答案 + 显式的置信度等级,而不是模糊化所有结论:"我相对确定是 X,但 Y 这一项需要你验证"。

三个反模式的共同根源

都是把单一指标最大化 的结果——AI 最容易学到"这个指标更高就更好", 但人类世界从来都是多指标平衡。Constitutional AI 解决的就是 "如何让模型学会平衡,而不是只会最大化"。下一章我们详细看这部分训练范式。

02.4 · 它如何决定产品

这不是哲学课——
它直接长进了产品里

4 月的更新里,几乎每一个功能都能在 3H 框架里找到对应。 下面是一份"先导版"对照(完整版在第 15 章)。

4 月功能对应原则具体体现
Opus 4.7 · 3× 视觉 + xhigh effort Helpful 能力上限提高,让 Claude 能处理之前看不清的小字与文档。
Claude Design Helpful(极致版) 不再只回答"应该怎么做 PPT",直接交付 PPT 本身。
/ultrareview 多 agent 并行 Honest 每个 reviewer 独立列发现,可以分别 disagree——不当黑箱。
Bash 权限收紧 / OAuth 修复 Harmless 能力越大、边界越紧——find -exec / -delete 不再自动批准。
Cowork + Analytics + OpenTelemetry Honest + Harmless "AI 在干嘛"必须能看见、能审计、能拦截。
/effort 滑块 + task budgets 用户自主 把"思考多久、花多少钱"的决定权交还给用户。
RBAC + SCIM Harmless(组织级) 个人级权限延展到团队级——管理员能精确控制谁能用什么 feature。

下一页:从 3H 进一步深入——Anthropic 是怎么把这些原则训练进模型的? 这就是 Constitutional AI。

Claude · April 2026 · Philosophy
2 / 17