Part II · 05 · 4 月旗舰
2026-04-16

Claude Opus 4.7
4 月最重磅的一次模型升级

claude-opus-4-7

同样的定价、显著更强的能力——4.7 在编码、agents、视觉、复杂多步骤任务上全面提升。 官方表述:"在重要工作上提供更高的彻底性与一致性"

$5 / $25
per million input / output tokens
200K
context window

它不是一次小修小补,而是一次能力曲线的明显跃迁—— 下面三页拆解 benchmark、新能力、和它如何接入到 Claude Code / API。

05.1 · 数据

Benchmark 全面跃迁

4.7 的提升不是"+1%"级别——在多个关键 benchmark 上是两位数跳跃。

SWE-bench Verified
87.6%
↑ 6.8 pts vs 4.6 (80.8%)
领先 Gemini 3.1 Pro (80.6%) · GPT-5.4
SWE-bench Pro (多语言)
64.3%
↑ 10.9 pts vs 4.6 (53.4%)
领先 GPT-5.4 (57.7%) · Gemini (54.2%)
XBOW 视觉精度
98.5%
↑ 44.0 pts vs 4.6 (54.5%)
enables autonomous pen-testing 工作流
MCP-Atlas
77.3%
↑ 1.5 pts vs 4.6 (75.8%)
领先 GPT-5.4 (68.1%) · Gemini 3.1 Pro (73.9%)
OSWorld-Verified
78.0%
↑ 5.3 pts vs 4.6 (72.7%)
领先 GPT-5.4 (75.0%) · 接近 Mythos (79.6%)
视觉分辨率
3.75MP
↑ 3× vs 之前所有 Claude 模型
2576px 长边——能看清扫描合同的小字
Effort 级别
+1
新增 xhigh 介于 high 和 max 之间
长链路、深思考任务专用
价格
不变 · $5 / $25 per MTok
能力升级 · 价格持平 · 性价比净涨

为什么这次 SWE-bench 提升尤其重要?

SWE-bench 是真实开源 GitHub issue 修复任务——比所有 unit test benchmark 更接近实际工作。 4.7 在 Verified 子集到 87.6%、Pro 多语言子集到 64.3%——意味着 Claude 现在能在 不同语言的真实代码库里独立修复半数以上的真 bug。 这不再是"很会写 hello world",而是"能在生产代码里站稳"。

05.2 · 新能力

四个最值得关注的能力升级

👁

3× 视觉分辨率

从约 1.25 MP 提升到 3.75 MP(长边 2576 像素)。这意味着 Claude 终于能"看清"—— 扫描合同的脚注、技术图纸的尺寸标注、财报里小字脚注都不再模糊。 企业文档分析的准确率显著提升。

🧠

xhigh effort 级别

介于 highmax 之间的新档位—— 给最难的题留出更长思考预算,但不会无限消耗算力。 在 Claude Code 里通过 /effort 滑块切换。

Task budgets

开发者可以显式设定 budget_tokens / time / cost 上限—— Claude 在到达上限前会主动总结当前进度、给出最佳停留点,而不是悄悄超支。 这是"用户自主权"在 API 层面的具象。

🎯

更好的指令遵循

一个不容易量化但真实的提升——4.7 更少"自作主张"。 如果你说"只改 X 文件、不要重构",它会照办; 如果你限定输出格式,它会严格遵守。在长会话里尤其明显。

如何升级 / 切换

API · Python
from anthropic import Anthropic

client = Anthropic()
resp = client.messages.create(
    model="claude-opus-4-7",           # 新模型 ID
    max_tokens=4096,
    thinking={
        "type": "enabled",
        "effort": "xhigh",                # 新档位
        "budget_tokens": 64000          # task budget
    },
    messages=[{"role": "user", "content": "..."}]
)
Claude Code · 终端
# 切换默认模型
$ /model claude-opus-4-7

# 调努力级别
$ /effort
  ◯ low      # 快、便宜
  ◯ medium
  ● high
  ◯ xhigh    # Opus 4.7 专属,最长思考预算

# Max 订户:开启 auto mode 自动选择最佳模型
$ /auto on
05.3 · 实战场景

4.7 适合用在哪?

长链路 agentic 编码

给一个 issue,让它读 repo、跑测试、修 bug、写 PR——多步骤场景下比 4.6 显著更稳定。 SWE-bench Pro 64.3% 是这种任务的代表。

金融 / 法律文档分析

3× 视觉让它能处理扫描版合同、年报、技术规格书—— 小字、表格、图标注都能识别。XBOW 视觉精度从 54% 跳到 98%。

OS-level agent / 桌面自动化

OSWorld-Verified 78%——能可靠地执行"打开 Excel、填表、保存到 SharePoint"这种 跨应用任务。这是 Cowork 能跨设备协作的底层能力支撑。

大型 monorepo 重构

200K 上下文 + xhigh effort + 更好指令遵循,一次性"全 repo 替换 / 跨文件改名 / 升级框架" 变得更可行。结合 /ultrareview 双保险。

安全审计 / pen-test

XBOW 视觉精度跃升让 autonomous pen-testing 工作流首次成为可能—— Claude 能"看着"应用截图找漏洞,而不是只读源码。

设计交付(与 Claude Design 联动)

Claude Design 由 Opus 4.7 驱动——能"看懂"上传的设计稿与 Figma 截图, 准确产出新的 mock-up。下一章详细讲。

05.4 · 闭环

Opus 4.7 ↔ 设计哲学

升级点对应原则具体体现
3× 视觉分辨率 Helpful 能力域扩展——之前看不清的文档现在能看清。
xhigh effort Honest 难题敢花算力——不假装秒答;思考预算明示给用户。
task budgets 用户自主 把成本/时长上限决定权交还给用户,而不是 AI 私自决定。
更好指令遵循 理解意图 "只改 X" 就只改 X——不擅自扩张范围。
价格不变 Helpful 能力升级不加价——降低用户接入新模型的摩擦。
SWE-bench Pro 跃升 Helpful 多语言真实代码库——能力下沉到非英语 / 非主流语言项目。

一个有意思的细节

4.7 的"更好指令遵循"是被很多开发者反复提到的。 这看似平淡,但其实回应了一种长期 trade-off: 模型越聪明,越容易"自作主张"。Anthropic 用 4.7 证明了 聪明和听话可以并行

迁移 checklist

API 用户:把 model id 改成 claude-opus-4-7,价格不变。
Claude Code:/model claude-opus-4-7
评估 effort 级别——xhigh 适合长链路;常规任务保持 high
设置 budget_tokens 上限——避免长会话花光预算。
Vertex AI / Bedrock 用户:检查 inference profile ARN 是否 v2.1.120 之后。
Sonnet 4 / 4.5 用户注意:1M 上下文 beta 在 4-30 退役。

下一页:Claude Design——同样由 Opus 4.7 驱动的设计协作产品。

Claude · April 2026 · Opus 4.7
5 / 17