免费

Opus 4.7 深度拆解:该升的、该等的、该小心的

Opus 4.7 发布:视觉能力从 54% 到 98%,但 tokenizer 变更可能让成本悄悄上涨 35%


Anthropic 今天发布了 Claude Opus 4.7。定价不变(输入 $5/M、输出 $25/M),API 标识 claude-opus-4-7,全平台可用——Claude 产品线、API、Bedrock、Vertex AI、Microsoft Foundry。

看起来是一次"免费升级"。但细看下来,有几处变化会直接影响你的工作方式,不是换个模型 ID 就完事的。


视觉:从"能看"到"能用"

Opus 4.6 的视觉能力算是"有但不好用"——54.5% 的视觉准确率,意味着看图差不多是抛硬币。4.7 直接拉到 98.5%,同时分辨率上限从之前的水平提升到 2576px 长边(约 375 万像素),是前代的 3 倍。

这不是"提升了一点",是从"玩具"变成了"工具"。

实际影响:

  • 技术图表:架构图、流程图、ER 图可以直接扔给它读了,不用再手动描述
  • 化学结构式:论文里的分子结构图可以直接识别
  • 截图分析:UI 截图、报错截图的识别可靠性大幅提高
  • 文档扫描件:合同、发票等扫描 PDF 的 OCR 准确率有了实用基础

如果你之前因为视觉能力不够而绕路(先手动转文字再喂给模型),现在可以重新评估工作流了。


指令遵循:好消息也是坏消息

4.7 大幅改善了对字面指令的遵循。以前 Claude 会"聪明地"跳过它觉得不重要的指令细节,或者松散解读你的要求。现在它照字面执行。

好处:复杂的多步骤指令、格式要求严格的输出、边界条件处理——都更可靠了。

代价:你的老 prompt 可能会出问题。

以前 Claude 会"理解你的意图"而忽略不够精确的措辞,现在它会严格按你说的做。如果你的 prompt 里有模糊表述、冗余指令、前后矛盾的要求——4.6 可能帮你兜底了,4.7 不会。

迁移建议:

  1. 先在低风险场景测试已有 prompt
  2. 重点检查"Claude 以前似乎在猜你的意思"的地方
  3. 把隐式期望改成显式指令

这是一次"模型变聪明了但你要跟着变精确"的升级。


编码能力:数字和体感

官方数据:

基准 提升幅度
93 任务编码基准 +13%
Rakuten-SWE-Bench(生产任务) 解决率 3 倍
多步工作流 +14%,工具错误更少

Rakuten-SWE-Bench 的 3 倍提升最值得关注——这是真实生产环境的任务,不是合成基准。多步工作流 +14% 配合工具错误减少,意味着长任务链的可靠性上了一个台阶。

结合 Claude Code 的变化:默认努力级别从 high 提升到新增的 xhigh(介于 high 和 max 之间),模型会在复杂任务上投入更多推理 token。新增的 /ultrareview 命令提供专门的代码审查会话,Pro 和 Max 用户每月有 3 次免费额度。


Tokenizer 变更:不花钱但会多花 token

4.7 更新了 tokenizer。同样的输入文本,现在会映射到约 1.0~1.35 倍的 token 数,具体取决于内容类型。

价格没变,但同样的输入消耗的 token 多了。算下来实际成本可能上浮 0~35%。

如果你有 token 预算敏感的应用,升级前先拿真实数据跑一轮 token 计数对比。特别是长文档处理场景,35% 的上浮不是小数字。


文档推理和法律场景

文档推理错误减少 21%,BigLaw Bench 法律基准准确率 90.9%。

法律场景一直是 LLM 的弱项——不是因为模型"不聪明",而是因为法律文本对精确性的要求极高,一个"或"和"及"的区别就能改变结论。21% 的错误减少是实质性进步。

结合视觉能力的提升,合同审查这个场景变得更可行了:扫描件直接输入 → 条款识别 → 风险分析,全链路的可靠性都上了一截。


安全和限制:有意为之的取舍

安全性与 4.6 基本持平:低欺骗率、低谄媚率、抗 prompt 注入有所改善。

但有两个刻意的限制:

  1. 网络安全能力被有意削弱:相比 Mythos Preview,4.7 主动降低了网络安全相关能力。高风险请求会被自动检测和拦截。安全研究人员可以申请 Cyber Verification Program 获取合法使用权限。

  2. 受控物质减害建议:这是官方承认的弱项——模型在提供受控物质相关的减害信息时表现不够理想。

官方的措辞是"largely well-aligned and trustworthy, though not fully ideal",并指出 Mythos Preview 仍然是对齐性最好的模型。这说明 4.7 在能力和对齐之间做了权衡——优先提升实用能力,对齐性保持但没有突破。


跟 Mythos Preview 的关系

Anthropic 明确说 Opus 4.7 不如 Mythos Preview"全面",但在多个实用基准上超过 Opus 4.6:办公任务、视觉、文档推理、长上下文、生物、编码、长期连贯性。

这暗示了 Anthropic 的产品线策略:Mythos 系列走前沿探索(更全面但可能更贵或更受限),Opus 系列走实用路线(够强、够稳、价格合理)。对大多数用户来说,4.7 的实用价值比 Mythos Preview 更高。


升级决策清单

你的场景 建议
有视觉处理需求(图表、截图、扫描件) 立刻升,提升巨大
长任务链 / 多步工作流 ,可靠性和工具调用都改善了
Claude Code 重度用户 ,xhigh 默认级别 + /ultrareview
文档分析 / 法律场景 ,文档推理和精确性提升明显
token 预算紧张的高吞吐应用 先测,tokenizer 变更可能导致成本上浮
依赖大量现有 prompt 的生产系统 先测后升,指令遵循变化可能需要调 prompt
需要网络安全相关能力 不升或申请,能力被有意削弱

一句话

Opus 4.7 不是"更大更贵"的升级,是"同价但重新分配了能力点"的升级。视觉和指令遵循是最大赢家,tokenizer 变更是最大的隐性成本。升级前先跑你的 prompt 测试套件——如果没有,现在是建一个的好时机。