09 · /ultrareview & /effort

Part III · 09 · 重点功能

/ultrareview：把代码审查
交给"一群 Claude"

4 月最受开发者关注的功能。它在云端启动一队专长不同的 reviewer agent—— 安全、正确性、架构、性能、测试、风格——并行分析你的 diff，最后汇总成一个高信号、低噪音的清单。

⏱

10–20 分钟

典型完成时间——agents 在 Anthropic 云端跑，不占你本地资源。非阻塞——你继续干别的事，结果以 CLI 通知形式回来。

✓

独立验证

每个 finding 在报告前都过一道verification step—— Agent 独立检查"这个发现是不是真存在 / 真有影响"——大幅降低误报。

3

免费额度

Pro / Max 计划在 5 月 5 日前每账号 3 次免费—— 鼓励试用。研究 preview 阶段，正式定价待定。

09.1 · 工作原理

六个 reviewer 各司其职

Reviewer 01

🔐 Security

找 SQL 注入、XSS、命令注入、敏感数据泄漏、不安全的反序列化、auth 绕过。特别关注 OWASP Top 10 类问题。

扫描深度：跨文件 · 跨函数

Reviewer 02

🎯 Correctness

逻辑错误、边界条件、空指针、异常处理遗漏、并发数据竞争、类型不匹配——传统 reviewer 最关注的部分。

扫描深度：单文件 + diff 上下文

Reviewer 03

🏛️ Architecture

耦合度、模块边界破坏、循环依赖、违反既有抽象、引入了不应该存在的 cross-layer 调用。看的是"长期债务"。

扫描深度：跨模块 · 项目级

Reviewer 04

⚡ Performance

N+1 查询、O(n²) 循环、内存泄漏、不必要的同步阻塞、热路径上的异常昂贵操作——结合 hot path 静态推断。

扫描深度：函数级 + 调用图

Reviewer 05

🧪 Tests

覆盖率缺口、关键 case 没测、测试本身的脆弱性（依赖时间、随机性、外部 API）、 mock 用错——不只是"有没有写测试"，而是"测试质量怎么样"。

扫描深度：测试文件 + 关联实现

Reviewer 06

📝 Style

命名一致性、注释质量、复杂度、与项目现有 convention 的偏离—— 不是 linter 替代品，关注 linter 抓不到的"读起来的感觉"。

扫描深度：单文件 + 项目惯例

完整流程

T+0

启动

用户运行 /ultrareview

T+30s

Sandbox 启动

云端拉取 diff + 上下文

T+2~15min

并行分析

6 个 agent 各自扫描

T+15~18min

验证

每个 finding 独立验证

T+18~20min

聚合

合并、去重、排序

完成

CLI 通知

用户在终端看到结果

09.2 · 使用方法

三种调用方式

方式 1 · 当前分支

claude code
$ /ultrareview

# 默认审查当前分支 vs base branch 的 diff
# 不需要 push，不需要 GitHub 远端

方式 2 · 指定 PR

claude code
$ /ultrareview 1234

# GitHub PR #1234
# 也支持 GitLab MR / Bitbucket PR
#（v2.1.119+）

方式 3 · CI 集成（v2.1.120+）

.github/workflows/review.yml
- name: Run ultrareview
  run: |
    claude ultrareview origin/main \
      --output review.md \
      --severity high \
      --format json
  env:
    ANTHROPIC_API_KEY: ${{ secrets.CLAUDE_KEY }}

输出长什么样

/ultrareview · 输出示例
# Ultrareview · auth-rewrite branch
# 4 confirmed findings · 18 false positives filtered

[HIGH] Security · auth/middleware.go:42
  Session token compared with == (timing attack)
  # Verified by independent agent run
  # Suggested fix: use subtle.ConstantTimeCompare

[MED] Correctness · handlers/login.go:88
  Error path returns 200 instead of 401
  # Reproduces in test (see proof_login_test.go)

[MED] Tests · handlers/login_test.go
  No coverage for the empty-username case
  # Suggested test added inline below

[LOW] Style · auth/util.go:120
  Function name "doIt" doesn't match repo convention
  # 12 similar functions use "execute*" prefix

───────────────────────────────────────
# Skipped findings (low confidence): 18
# Total agent runtime: 14m 22s
# Cost: 1 of your 3 free runs

注意每条 finding 都有验证依据——这是"对局限诚实"的具象。

09.3 · /effort

/effort：思考多久，
用户说了算

Claude Code 一直有努力级别的概念，4 月把它做成了交互式滑块—— 用 ↑/↓ 选择，回车确认。简单但重要。

Effort Level

↑ ↓ navigate · Enter confirm

low

medium

high

xhigh ★

low

最快、最便宜——简单查询、纯文本编辑、单文件小改。思考预算几乎为 0。

medium

日常默认——多步骤但范围可控的任务。适合 90% 的常规开发场景。

high

长链路、跨文件——需要真正"想清楚"才动手。多数 PR 级修改建议用这档。

xhigh ★

Opus 4.7 专属——最长思考预算。适合棘手的并发 bug、架构重构、复杂数据处理。

和 task budgets 配合

配合使用
# API 端
thinking={
    "effort": "xhigh",           # 努力级别
    "budget_tokens": 64000,      # 但仍设上限
}

# Claude Code 端
$ /effort xhigh           # 切换
$ /budget tokens=64000    # 上限
$ /budget cost=2.50       # 也可按美元限

这套设计的核心理念：把"思考多深"和"花多少钱"都明示给用户。 Claude 不会"偷偷思考很久花你 50 美元"——你设定上限，它会在到达前主动总结当前进度并停止。

09.4 · 设计哲学映射

为什么这两个功能
是 "理念产品化" 的范例？

设计选择	对应原则	具体体现
/ultrareview 必须用户主动调用	用户自主	不在你不知情时跑——它要花你的额度，要花时间，所以你要明确说"好"。
每个 reviewer 列单独发现	Honest	不用单一 "AI says it's bad" 黑箱——你能看到每条结论的归属与依据。
Verification step 过滤误报	Honest	承认 "AI 第一遍可能错"——通过独立验证降低假阳性，比"虚高准确率"更诚实。
非阻塞 · 异步通知	尊重时间	不绑架你的注意力——10~20 min 期间你照常工作。
/effort 滑块	理解意图	把"你想让我多用心"做成显式输入，而不是 Claude 私自决定。
task budgets	用户自主	"花多少钱"由你定，不是 AI 私自烧——到上限会主动停。
CI 子命令 (claude ultrareview)	Helpful	从"在终端用"扩展到"在流水线用"——能力下沉到团队层。
3 次免费 + 5 月 5 日截止	Honest	定价待定但额度透明——不在用户不知情时扣费。

下一页：MCP / Skills / Hooks——4 月围绕"扩展性"的诸多更新。

/ultrareview：把代码审查交给"一群 Claude"

10–20 分钟

独立验证

免费额度

六个 reviewer 各司其职

🔐 Security

🎯 Correctness

🏛️ Architecture

⚡ Performance

🧪 Tests

📝 Style

完整流程

启动

Sandbox 启动

并行分析

验证

聚合

CLI 通知

三种调用方式

方式 1 · 当前分支

方式 2 · 指定 PR

方式 3 · CI 集成（v2.1.120+）

输出长什么样

/effort：思考多久，用户说了算

Effort Level

low

medium

high

xhigh ★

和 task budgets 配合

为什么这两个功能是 "理念产品化" 的范例？

/ultrareview：把代码审查
交给"一群 Claude"

/effort：思考多久，
用户说了算

为什么这两个功能
是 "理念产品化" 的范例？