同样的定价、显著更强的能力——4.7 在编码、agents、视觉、复杂多步骤任务上全面提升。 官方表述:"在重要工作上提供更高的彻底性与一致性"。
它不是一次小修小补,而是一次能力曲线的明显跃迁—— 下面三页拆解 benchmark、新能力、和它如何接入到 Claude Code / API。
4.7 的提升不是"+1%"级别——在多个关键 benchmark 上是两位数跳跃。
SWE-bench 是真实开源 GitHub issue 修复任务——比所有 unit test benchmark 更接近实际工作。 4.7 在 Verified 子集到 87.6%、Pro 多语言子集到 64.3%——意味着 Claude 现在能在 不同语言的真实代码库里独立修复半数以上的真 bug。 这不再是"很会写 hello world",而是"能在生产代码里站稳"。
从约 1.25 MP 提升到 3.75 MP(长边 2576 像素)。这意味着 Claude 终于能"看清"—— 扫描合同的脚注、技术图纸的尺寸标注、财报里小字脚注都不再模糊。 企业文档分析的准确率显著提升。
介于 high 和 max 之间的新档位——
给最难的题留出更长思考预算,但不会无限消耗算力。
在 Claude Code 里通过 /effort 滑块切换。
开发者可以显式设定 budget_tokens / time / cost 上限—— Claude 在到达上限前会主动总结当前进度、给出最佳停留点,而不是悄悄超支。 这是"用户自主权"在 API 层面的具象。
一个不容易量化但真实的提升——4.7 更少"自作主张"。 如果你说"只改 X 文件、不要重构",它会照办; 如果你限定输出格式,它会严格遵守。在长会话里尤其明显。
API · Python from anthropic import Anthropic client = Anthropic() resp = client.messages.create( model="claude-opus-4-7", # 新模型 ID max_tokens=4096, thinking={ "type": "enabled", "effort": "xhigh", # 新档位 "budget_tokens": 64000 # task budget }, messages=[{"role": "user", "content": "..."}] )
Claude Code · 终端 # 切换默认模型 $ /model claude-opus-4-7 # 调努力级别 $ /effort ◯ low # 快、便宜 ◯ medium ● high ◯ xhigh # Opus 4.7 专属,最长思考预算 # Max 订户:开启 auto mode 自动选择最佳模型 $ /auto on
给一个 issue,让它读 repo、跑测试、修 bug、写 PR——多步骤场景下比 4.6 显著更稳定。 SWE-bench Pro 64.3% 是这种任务的代表。
3× 视觉让它能处理扫描版合同、年报、技术规格书—— 小字、表格、图标注都能识别。XBOW 视觉精度从 54% 跳到 98%。
OSWorld-Verified 78%——能可靠地执行"打开 Excel、填表、保存到 SharePoint"这种 跨应用任务。这是 Cowork 能跨设备协作的底层能力支撑。
200K 上下文 + xhigh effort + 更好指令遵循,一次性"全 repo 替换 / 跨文件改名 / 升级框架" 变得更可行。结合 /ultrareview 双保险。
XBOW 视觉精度跃升让 autonomous pen-testing 工作流首次成为可能—— Claude 能"看着"应用截图找漏洞,而不是只读源码。
Claude Design 由 Opus 4.7 驱动——能"看懂"上传的设计稿与 Figma 截图, 准确产出新的 mock-up。下一章详细讲。
| 升级点 | 对应原则 | 具体体现 |
|---|---|---|
| 3× 视觉分辨率 | Helpful | 能力域扩展——之前看不清的文档现在能看清。 |
| xhigh effort | Honest | 难题敢花算力——不假装秒答;思考预算明示给用户。 |
| task budgets | 用户自主 | 把成本/时长上限决定权交还给用户,而不是 AI 私自决定。 |
| 更好指令遵循 | 理解意图 | "只改 X" 就只改 X——不擅自扩张范围。 |
| 价格不变 | Helpful | 能力升级不加价——降低用户接入新模型的摩擦。 |
| SWE-bench Pro 跃升 | Helpful | 多语言真实代码库——能力下沉到非英语 / 非主流语言项目。 |
4.7 的"更好指令遵循"是被很多开发者反复提到的。 这看似平淡,但其实回应了一种长期 trade-off: 模型越聪明,越容易"自作主张"。Anthropic 用 4.7 证明了 聪明和听话可以并行。
claude-opus-4-7,价格不变。/model claude-opus-4-7。xhigh 适合长链路;常规任务保持 high。budget_tokens 上限——避免长会话花光预算。下一页:Claude Design——同样由 Opus 4.7 驱动的设计协作产品。