05 · Claude Opus 4.7

Part II · 05 · 4 月旗舰

2026-04-16

Claude Opus 4.7
4 月最重磅的一次模型升级

它不是一次小修小补，而是一次能力曲线的明显跃迁—— 下面三页拆解 benchmark、新能力、和它如何接入到 Claude Code / API。

05.1 · 数据

Benchmark 全面跃迁

4.7 的提升不是"+1%"级别——在多个关键 benchmark 上是两位数跳跃。

SWE-bench Verified

87.6%

↑ 6.8 pts vs 4.6 (80.8%)

领先 Gemini 3.1 Pro (80.6%) · GPT-5.4

SWE-bench Pro (多语言)

64.3%

↑ 10.9 pts vs 4.6 (53.4%)

领先 GPT-5.4 (57.7%) · Gemini (54.2%)

XBOW 视觉精度

98.5%

↑ 44.0 pts vs 4.6 (54.5%)

enables autonomous pen-testing 工作流

MCP-Atlas

77.3%

↑ 1.5 pts vs 4.6 (75.8%)

领先 GPT-5.4 (68.1%) · Gemini 3.1 Pro (73.9%)

OSWorld-Verified

78.0%

↑ 5.3 pts vs 4.6 (72.7%)

领先 GPT-5.4 (75.0%) · 接近 Mythos (79.6%)

视觉分辨率

3.75MP

↑ 3× vs 之前所有 Claude 模型

2576px 长边——能看清扫描合同的小字

Effort 级别

+1

新增 xhigh 介于 high 和 max 之间

长链路、深思考任务专用

价格

≡

不变 · $5 / $25 per MTok

能力升级 · 价格持平 · 性价比净涨

为什么这次 SWE-bench 提升尤其重要？

SWE-bench 是真实开源 GitHub issue 修复任务——比所有 unit test benchmark 更接近实际工作。 4.7 在 Verified 子集到 87.6%、Pro 多语言子集到 64.3%——意味着 Claude 现在能在 不同语言的真实代码库里独立修复半数以上的真 bug。这不再是"很会写 hello world"，而是"能在生产代码里站稳"。

05.2 · 新能力

四个最值得关注的能力升级

👁

3× 视觉分辨率

从约 1.25 MP 提升到 3.75 MP（长边 2576 像素）。这意味着 Claude 终于能"看清"—— 扫描合同的脚注、技术图纸的尺寸标注、财报里小字脚注都不再模糊。企业文档分析的准确率显著提升。

🧠

xhigh effort 级别

介于 high 和 max 之间的新档位—— 给最难的题留出更长思考预算，但不会无限消耗算力。在 Claude Code 里通过 /effort 滑块切换。

⏱

Task budgets

开发者可以显式设定 budget_tokens / time / cost 上限—— Claude 在到达上限前会主动总结当前进度、给出最佳停留点，而不是悄悄超支。这是"用户自主权"在 API 层面的具象。

🎯

更好的指令遵循

一个不容易量化但真实的提升——4.7 更少"自作主张"。如果你说"只改 X 文件、不要重构"，它会照办；如果你限定输出格式，它会严格遵守。在长会话里尤其明显。

如何升级 / 切换

API · Python
from anthropic import Anthropic

client = Anthropic()
resp = client.messages.create(
    model="claude-opus-4-7",           # 新模型 ID
    max_tokens=4096,
    thinking={
        "type": "enabled",
        "effort": "xhigh",                # 新档位
        "budget_tokens": 64000          # task budget
    },
    messages=[{"role": "user", "content": "..."}]
)

Claude Code · 终端
# 切换默认模型
$ /model claude-opus-4-7

# 调努力级别
$ /effort
  ◯ low      # 快、便宜
  ◯ medium
  ● high
  ◯ xhigh    # Opus 4.7 专属，最长思考预算

# Max 订户：开启 auto mode 自动选择最佳模型
$ /auto on

05.3 · 实战场景

4.7 适合用在哪？

①

长链路 agentic 编码

给一个 issue，让它读 repo、跑测试、修 bug、写 PR——多步骤场景下比 4.6 显著更稳定。 SWE-bench Pro 64.3% 是这种任务的代表。

②

金融 / 法律文档分析

3× 视觉让它能处理扫描版合同、年报、技术规格书—— 小字、表格、图标注都能识别。XBOW 视觉精度从 54% 跳到 98%。

③

OS-level agent / 桌面自动化

OSWorld-Verified 78%——能可靠地执行"打开 Excel、填表、保存到 SharePoint"这种跨应用任务。这是 Cowork 能跨设备协作的底层能力支撑。

④

大型 monorepo 重构

200K 上下文 + xhigh effort + 更好指令遵循，一次性"全 repo 替换 / 跨文件改名 / 升级框架" 变得更可行。结合 /ultrareview 双保险。

⑤

安全审计 / pen-test

XBOW 视觉精度跃升让 autonomous pen-testing 工作流首次成为可能—— Claude 能"看着"应用截图找漏洞，而不是只读源码。

⑥

设计交付（与 Claude Design 联动）

Claude Design 由 Opus 4.7 驱动——能"看懂"上传的设计稿与 Figma 截图，准确产出新的 mock-up。下一章详细讲。

05.4 · 闭环

Opus 4.7 ↔ 设计哲学

升级点	对应原则	具体体现
3× 视觉分辨率	Helpful	能力域扩展——之前看不清的文档现在能看清。
xhigh effort	Honest	难题敢花算力——不假装秒答；思考预算明示给用户。
task budgets	用户自主	把成本/时长上限决定权交还给用户，而不是 AI 私自决定。
更好指令遵循	理解意图	"只改 X" 就只改 X——不擅自扩张范围。
价格不变	Helpful	能力升级不加价——降低用户接入新模型的摩擦。
SWE-bench Pro 跃升	Helpful	多语言真实代码库——能力下沉到非英语 / 非主流语言项目。

一个有意思的细节

4.7 的"更好指令遵循"是被很多开发者反复提到的。这看似平淡，但其实回应了一种长期 trade-off：模型越聪明，越容易"自作主张"。Anthropic 用 4.7 证明了 聪明和听话可以并行。

迁移 checklist

API 用户：把 model id 改成 claude-opus-4-7，价格不变。

Claude Code：/model claude-opus-4-7。

评估 effort 级别——xhigh 适合长链路；常规任务保持 high。

设置 budget_tokens 上限——避免长会话花光预算。

Vertex AI / Bedrock 用户：检查 inference profile ARN 是否 v2.1.120 之后。

Sonnet 4 / 4.5 用户注意：1M 上下文 beta 在 4-30 退役。

下一页：Claude Design——同样由 Opus 4.7 驱动的设计协作产品。

Claude Opus 4.74 月最重磅的一次模型升级

Benchmark 全面跃迁

为什么这次 SWE-bench 提升尤其重要？

四个最值得关注的能力升级

3× 视觉分辨率

xhigh effort 级别

Task budgets

更好的指令遵循

如何升级 / 切换

4.7 适合用在哪？

长链路 agentic 编码

金融 / 法律文档分析

OS-level agent / 桌面自动化

大型 monorepo 重构

安全审计 / pen-test

设计交付（与 Claude Design 联动）

Opus 4.7 ↔ 设计哲学

一个有意思的细节

迁移 checklist

Claude Opus 4.7
4 月最重磅的一次模型升级