Part III · 09 · 重点功能

/ultrareview:把代码审查
交给"一群 Claude"

4 月最受开发者关注的功能。它在云端启动一队专长不同的 reviewer agent—— 安全、正确性、架构、性能、测试、风格——并行分析你的 diff,最后汇总成一个高信号、低噪音的清单。

10–20 分钟

典型完成时间——agents 在 Anthropic 云端跑,不占你本地资源。 非阻塞——你继续干别的事,结果以 CLI 通知形式回来。

独立验证

每个 finding 在报告前都过一道verification step—— Agent 独立检查"这个发现是不是真存在 / 真有影响"——大幅降低误报。

3

免费额度

Pro / Max 计划在 5 月 5 日前每账号 3 次免费—— 鼓励试用。研究 preview 阶段,正式定价待定。

09.1 · 工作原理

六个 reviewer 各司其职

Reviewer 01
🔐 Security

找 SQL 注入、XSS、命令注入、敏感数据泄漏、不安全的反序列化、auth 绕过。 特别关注 OWASP Top 10 类问题。

扫描深度:跨文件 · 跨函数
Reviewer 02
🎯 Correctness

逻辑错误、边界条件、空指针、异常处理遗漏、并发数据竞争、 类型不匹配——传统 reviewer 最关注的部分。

扫描深度:单文件 + diff 上下文
Reviewer 03
🏛️ Architecture

耦合度、模块边界破坏、循环依赖、违反既有抽象、 引入了不应该存在的 cross-layer 调用。看的是"长期债务"。

扫描深度:跨模块 · 项目级
Reviewer 04
⚡ Performance

N+1 查询、O(n²) 循环、内存泄漏、不必要的同步阻塞、 热路径上的异常昂贵操作——结合 hot path 静态推断。

扫描深度:函数级 + 调用图
Reviewer 05
🧪 Tests

覆盖率缺口、关键 case 没测、测试本身的脆弱性(依赖时间、随机性、外部 API)、 mock 用错——不只是"有没有写测试",而是"测试质量怎么样"。

扫描深度:测试文件 + 关联实现
Reviewer 06
📝 Style

命名一致性、注释质量、复杂度、与项目现有 convention 的偏离—— 不是 linter 替代品,关注 linter 抓不到的"读起来的感觉"。

扫描深度:单文件 + 项目惯例

完整流程

T+0
启动

用户运行 /ultrareview

T+30s
Sandbox 启动

云端拉取 diff + 上下文

T+2~15min
并行分析

6 个 agent 各自扫描

T+15~18min
验证

每个 finding 独立验证

T+18~20min
聚合

合并、去重、排序

完成
CLI 通知

用户在终端看到结果

09.2 · 使用方法

三种调用方式

方式 1 · 当前分支

claude code
$ /ultrareview

# 默认审查当前分支 vs base branch 的 diff
# 不需要 push,不需要 GitHub 远端

方式 2 · 指定 PR

claude code
$ /ultrareview 1234

# GitHub PR #1234
# 也支持 GitLab MR / Bitbucket PR
#(v2.1.119+)

方式 3 · CI 集成(v2.1.120+)

.github/workflows/review.yml
- name: Run ultrareview
  run: |
    claude ultrareview origin/main \
      --output review.md \
      --severity high \
      --format json
  env:
    ANTHROPIC_API_KEY: ${{ secrets.CLAUDE_KEY }}

输出长什么样

/ultrareview · 输出示例
# Ultrareview · auth-rewrite branch
# 4 confirmed findings · 18 false positives filtered

[HIGH] Security · auth/middleware.go:42
  Session token compared with == (timing attack)
  # Verified by independent agent run
  # Suggested fix: use subtle.ConstantTimeCompare

[MED] Correctness · handlers/login.go:88
  Error path returns 200 instead of 401
  # Reproduces in test (see proof_login_test.go)

[MED] Tests · handlers/login_test.go
  No coverage for the empty-username case
  # Suggested test added inline below

[LOW] Style · auth/util.go:120
  Function name "doIt" doesn't match repo convention
  # 12 similar functions use "execute*" prefix

───────────────────────────────────────
# Skipped findings (low confidence): 18
# Total agent runtime: 14m 22s
# Cost: 1 of your 3 free runs

注意每条 finding 都有验证依据——这是"对局限诚实"的具象。

09.3 · /effort

/effort:思考多久,
用户说了算

Claude Code 一直有努力级别的概念,4 月把它做成了交互式滑块—— 用 ↑/↓ 选择,回车确认。简单但重要。

Effort Level

↑ ↓ navigate · Enter confirm
low
medium
high
xhigh ★

low

最快、最便宜——简单查询、纯文本编辑、单文件小改。 思考预算几乎为 0。

medium

日常默认——多步骤但范围可控的任务。 适合 90% 的常规开发场景。

high

长链路、跨文件——需要真正"想清楚"才动手。 多数 PR 级修改建议用这档。

xhigh ★

Opus 4.7 专属——最长思考预算。 适合棘手的并发 bug、架构重构、复杂数据处理。

和 task budgets 配合

配合使用
# API 端
thinking={
    "effort": "xhigh",           # 努力级别
    "budget_tokens": 64000,      # 但仍设上限
}

# Claude Code 端
$ /effort xhigh           # 切换
$ /budget tokens=64000    # 上限
$ /budget cost=2.50       # 也可按美元限

这套设计的核心理念:把"思考多深"和"花多少钱"都明示给用户。 Claude 不会"偷偷思考很久花你 50 美元"——你设定上限,它会在到达前主动总结当前进度并停止。

09.4 · 设计哲学映射

为什么这两个功能
是 "理念产品化" 的范例?

设计选择对应原则具体体现
/ultrareview 必须用户主动调用 用户自主 不在你不知情时跑——它要花你的额度,要花时间,所以你要明确说"好"。
每个 reviewer 列单独发现 Honest 不用单一 "AI says it's bad" 黑箱——你能看到每条结论的归属与依据。
Verification step 过滤误报 Honest 承认 "AI 第一遍可能错"——通过独立验证降低假阳性,比"虚高准确率"更诚实。
非阻塞 · 异步通知 尊重时间 不绑架你的注意力——10~20 min 期间你照常工作。
/effort 滑块 理解意图 把"你想让我多用心"做成显式输入,而不是 Claude 私自决定。
task budgets 用户自主 "花多少钱"由你定,不是 AI 私自烧——到上限会主动停。
CI 子命令 (claude ultrareview) Helpful 从"在终端用"扩展到"在流水线用"——能力下沉到团队层。
3 次免费 + 5 月 5 日截止 Honest 定价待定但额度透明——不在用户不知情时扣费。

下一页:MCP / Skills / Hooks——4 月围绕"扩展性"的诸多更新。

Claude · April 2026 · /ultrareview & /effort
9 / 17