A Layered Governance Model for AI Agents
智能体
分层治理模型
控制面分离 · The Agent Reference Model (ARM)
pyf · 2026
00 · 从一只龙虾说起
OpenClaw 小龙虾
一个跑在你自己机器上的开源个人 agent——接上飞书、微信、Telegram,给它技能,让它替你清邮件、盯日程、自己动手干活。2026 年 3 月,它在 GitHub 一夜爆火——也成了今天这套模型的起点。
Peter Steinberger(PSPDFKit 创始人)作 · MIT · github.com/openclaw/openclaw
2026.3 GitHub star 破 16 万 · 周访问约 200 万 · 腾讯云上架一键部署 · 马化腾公开点名
路线 / ROADMAP

今天这一趟,我们要走的路

从一只爆火的小龙虾,走到一张能把眼前所有乱象一一归位的分层图——这张图,是全场的落点。
00
龙虾爆火
一个人人能跑的
个人 agent
01
拆开来看
它已经自然
长出了分层
02
养了要防
能用 ≠ 能放心
治理没跟上
03
百花齐放
这样的工具
已有上百个
04
各搞各的
越多,越没有
共同语言
05
抛砖引玉
试画一张
共同分层图
06
乱象归位 ★
前面每个问题
各就各位
归位之后 原理九条 · 产业走向 · 结语
ARM · 智能体分层治理模型循序渐进 · 落点在「归位」
01 / 拆解

拆开 OpenClaw,你已经看见了分层

20+ 消息渠道
飞书·微信·Telegram
↓ 这是
界面
interface
Skills · SKILL.md
ClawHub 市场
↓ 这是
能力
capability
30+ 模型 Provider
可插拔 / failover
↓ 这是
执行层
execution
Gateway
官方原话 control plane
↓ 这是
控制面
control
安全沙箱
Docker 隔离·限权工具
↓ 这是
治理
redline
Peter 没有刻意"分层",但一个能用的 agent,自然长出了这些面——连控制面沙箱都有了。
ARM · 智能体分层治理模型来源 github.com/openclaw/openclaw
02 / 但是

"这只龙虾,养了也要防"

  • 200+封邮件被不可逆删除——一位 Meta AI 安全负责人的真实遭遇
  • 明文凭据key 与账号明文落盘,资产可被直接窃取
  • Prompt 注入一封恶意邮件 / 一段文本,就能劫持它替你做事
  • 无审计日志出了事,查不到是怎么发生的
问题的根,不是模型不够聪明——是治理跟不上动手的速度。
ARM · 智能体分层治理模型来源 科技日报 / ncsti.gov.cn 2026-03
03 · 现场
OpenClaw 只是其中一朵
LangGraphCrewAIAutoGen / AG2 MetaGPTOpenAI Agents SDKClaude Agent SDK Google ADKBedrock AgentCorePydantic AI MastraLlamaIndexDifyn8n ManusDevinOpenHandsCursor…还有上百个
市场 ~$7.8B(2025) → ~$52.6B(2030),46% CAGR · 79% 企业称已在采用 · agentic 创业上半年融资 $2.8B
来源 MarketsandMarkets · PwC 2025 · Prosus
04 / 问题

框架越多,越没有共同语言

  • 40%的 agentic 项目,将在 2027 年底前被砍——成本高、价值不清、风控弱(Gartner)
  • 94% / 12%的组织担心 agent 失控蔓延;只有 12% 有集中治理(OutSystems)
  • 50–80%选错框架的重写代价——框架选择是架构决定,不是库决定
  • OSI?连学界都在喊:该有一套 "OSI-inspired stack for agentic AI"
每个团队都在重造同一套脚手架——执行、工具、记忆、治理——却没有一张共同的分层图
ARM · 智能体分层治理模型来源 Gartner 2025 · OutSystems · arXiv "OSI-Inspired Stack for Agentic AI"
抛砖引玉 · Our Attempt
分层
治理模型
不敢称标准——先抛块砖:给这场百花齐放,试着画一张共同的分层图,并把治理摆到第一位。
05 / 模型
① 画出这张图② 归位验证③ 层间的缝④ 升级成理论
资源面 · 计量
▲ 人 / PRINCIPAL ▲
L1
界面面
UI · 审批 · 可观测 —— 与人之间的膜
interface
L4
控制面
职权 + redline + 编排 —— 裁决与约束(带外)
control
redline带外强制
L2
知识面
长期教义 + 历史履历 —— 注入 / 回写
knowledge
L3·L5
执行面
能力 / 工具 → 执行层 —— 干活、产生副作用
data plane
▼ 硅 / SUBSTRATE ▼
身份面 · 最小权限
ARM · 智能体分层治理模型红线之上裁决 · 红线之下执行
06 / 归位
① 画出这张图② 归位验证③ 层间的缝④ 升级成理论

那一堆乱象,落进各层就清清楚楚

养了要防 · 安全失控百花齐放 · 框架碎片没有共同语言 · 标准空白 各就各位
代表工具(真实)跨厂商标准?
执行层Claude Code · Codex · Devin · OpenHands— 各搞各的
能力 / 工具MCP("AI 的 USB-C")· OpenAI·Google·微软已采纳 · 捐给 Linux 基金会✓ 唯一成型的窄腰
编排LangGraph · CrewAI · AutoGen · OpenAI Agents SDK · A2A(150+ 组织)~ A2A 在追赶
知识 · 记忆LlamaIndex · 各家 vector / memory— 空白
治理LangSmith · AgentOps · Galileo · OpenClaw 的 Gateway+沙箱(单产品雏形)— 空白
界面Cursor · Dify · n8n · OpenClaw 渠道— 空白
六层里只有工具层(MCP)长出了跨厂商标准;执行、知识、治理、界面——全是空白。这张图要填的,正是这些空白。
ARM · 智能体分层治理模型来源 Anthropic MCP · Linux Foundation A2A · 各项目主页
07 / 契约
① 画出这张图② 归位验证③ 层间的缝④ 升级成理论

层间的缝 (seam):分层到底图什么?

归位之后你会问:分层除了好看,到底图什么?——图的是层与层之间的"缝"。把缝定死,每层就能独立替换(Claude Code→Codex、飞书→Web,换执行层不动治理),市场也能按层分工。
principal
审批 / 指令
界面
interface
指令 / 审计
控制面
control
门控动作通道
准 / 拒 / 升级
执行层
data plane
工具调用协议
MCP · 窄腰
工具
capability
critical控制面 ↔ 执行层 门控通道:执行层只能「提议」,放行权在控制面。
narrow waist执行层 ↔ 工具 调用协议 = 智能体的 IP,标准与价值在此沉淀。
ARM · 智能体分层治理模型契约
原理 / 九条
① 画出这张图② 归位验证③ 层间的缝④ 升级成理论

把分类法升级成理论:能解释、能预测、能反驳

P0
尺度不变
一个 agent 组织本身就是一个 agent
P1
可替换性
每层只经契约对话,实现可换
P2
窄腰假说
工具协议 = 智能体的 IP
P3
redline 带外
被约束者不能当执法者
P4
借来的职权
权力可回溯到一次人类授权
P5
教义 ≠ 履历
复利知识与问责日志分库
P6
成本一等公民
预算 redline 同等强制
P7
商品化梯度
价值上移到知识与治理
P8
自治度公式
放手多久 = 治理问题
ARM · 智能体分层治理模型把鼠标停在每条标题上看全解 · 红色四条随后深入展开
P0 / 尺度不变

拿公司打比方:每个部门,自己也是一家"小公司"

一家公司有这四样:前台对外、老板拍板定规矩、知识库存制度、各部门干活。把任一个部门单独放大,里面还是同一套;再缩到一个员工,依然是这四样。
整家公司放到行业里,它也像一个"员工"
界面前台 · 对外接活与汇报
控制CEO · 拍板、定死红线
知识公司知识库 · 制度与经验
执行各部门 · 真正干活的单元
放大
"各部门"
这一格
一个部门对公司,它就像一个"员工"
界面部门窗口 · 对接上级
控制部门主管 · 把关红线
知识部门资料 · 文档与经验
执行组员 · 真正干活的人
放大
"组员"
这一格
单个 agent缩到最小,还是同一张图
界面对话窗口 · 收任务
控制自我判断 · 该不该做
知识记忆 · 上下文
执行调用工具 · 真正动手
放大成整家公司、缩小成一个 agent——都是同一张四层图。这就是"尺度不变":一个 agent 团队,本身就是一个更大的 agent。
ARM · 智能体分层治理模型P0 · scale invariance
P2 / 窄腰假说
知识 · 治理 · 界面 (多)
工具调用协议 · MCP
执行层 · 模型 (多)
窄腰,就是智能体的 IP

下面接很多执行层、上面接很多应用,中间一条又细又稳的契约。MCP 一年内从 ~100 个 server 涨到上万,被 OpenAI、Google、微软同时采纳——
这条腰已经在长出来了。

ARM · 智能体分层治理模型来源 Anthropic MCP 一周年 · Linux Foundation
P3 · 控制 / 执行分离定理
redline 必须带外强制
不能让执行层强制它自己的约束——被约束者不能当执法者。redline 必须住在执行层够不到、也改不了的一层:一个拦截每次工具调用的策略网关。

OpenClaw 删掉 200 封邮件,正是因为约束在执行层之内、动作不可逆、还没有审计。沙箱是对的方向,但远不够。
P3 · 机制 / 怎么拦

动作门控:红线到底怎么拦住它

执行层
被约束者 —— 想删邮件 / 想转账 / 想 rm -rf
只能「提议」一个动作,不能直接执行
控制面 · 策略网关 = redline
拦截每一次工具调用,逐一裁决
带外
执行层够不到
也改不了这条线
准 / 拒 / 升级人工
真实世界
只有被放行的动作,才真正产生副作用
写在它自己提示里的「禁止清单」不算带外——那是请它自觉。真正的红线,是它根本拿不到那把钥匙
ARM · 智能体分层治理模型P3 · out-of-band enforcement
P8 / 自治度公式

能放手多久,是治理问题,不是能力问题

自治度 = 可验证 redline × 溯源完整度 × 可逆性
OpenClaw 三项都缺——约束在执行层内、无审计、删除不可逆——所以"养了也要防"。
想加自治,多数人的第一反应

去换一个更聪明的模型——没用:瓶颈不在聪明,在敢不敢放手

真正的杠杆

投资 可验证 redline × 溯源 × 可逆性——三项乘起来,才换得来无人值守的 7×24。

ARM · 智能体分层治理模型P8 · autonomy
实践 / 把图搭出来

照着这张图,我给自己搭了一支 AI 军团

代号 army:跑在我自己机器上、能 7×24 无人值守自治的一支 agent 团队。它不是 PPT——下面每一层,都对得上前面那张图。
这一层army 里它是什么对应原理
界面飞书里的流式审批卡片 + 一块公开的"作战看板",随时看它在干嘛、要不要批
控制 · 红线一个调度中枢派活;红线带外强制——想闯红线的动作,在网关就被拦掉,它自己关不掉这道关P3
知识长期"教义"和历史"履历"分两个库:一个越攒越值钱,一个只增不改、专门用来追责P5
执行项目经理 / 干活 / 质检 三类子 agent;每个"部门"本身又是一支完整的小军团P0
资源面一本"算力账本"记下每一笔花销;超了预算 = 直接拒绝执行,和安全红线同一道关P6
身份面不同角色发不同钥匙:对外用一个专门的机器人身份,碰不到我本人的权限P4
能放手多久,不靠模型多聪明,靠这三样:红线拦得住 × 全程留痕 × 一切可逆。三样齐了,它就真能无人值守替我干活。
ARM · 智能体分层治理模型实践 · army(自治闭环已上线)
08 / 产业

价值在哪里上移

执行层 / 模型
商品化最快 · 价格战
工具 / 能力
协议标准化(MCP)
知识 · 教义
私有 · 复利
控制 · 治理
信任 = 护城河
← 易被替代价值上移 →
市场在膨胀,信任在稀缺$7.8B→$52.6B(2030),但 40% 项目会被砍——缺的不是能力,是敢放手的治理
赢家不是模型最强的治理最可信 + 教义最厚的那个——敢让 agent 无人值守替你干活的那个。
ARM · 智能体分层治理模型来源 MarketsandMarkets · Gartner 2025
通往全自治的路,是一个治理问题
不是一个能力问题。
从一只小龙虾起步,到一张共同的分层图——把红线挪到执行层够不到的地方,把每个动作留下溯源,让一切可逆。剩下的,交给时间复利。
ARM · 智能体分层治理模型 · pyf · 2026 · deck v2