Opus 4.7 发布:视觉能力从 54% 到 98%,但 tokenizer 变更可能让成本悄悄上涨 35%
Anthropic 今天发布了 Claude Opus 4.7。定价不变(输入 $5/M、输出 $25/M),API 标识 claude-opus-4-7,全平台可用——Claude 产品线、API、Bedrock、Vertex AI、Microsoft Foundry。
看起来是一次"免费升级"。但细看下来,有几处变化会直接影响你的工作方式,不是换个模型 ID 就完事的。
Opus 4.6 的视觉能力算是"有但不好用"——54.5% 的视觉准确率,意味着看图差不多是抛硬币。4.7 直接拉到 98.5%,同时分辨率上限从之前的水平提升到 2576px 长边(约 375 万像素),是前代的 3 倍。
这不是"提升了一点",是从"玩具"变成了"工具"。
实际影响:
如果你之前因为视觉能力不够而绕路(先手动转文字再喂给模型),现在可以重新评估工作流了。
4.7 大幅改善了对字面指令的遵循。以前 Claude 会"聪明地"跳过它觉得不重要的指令细节,或者松散解读你的要求。现在它照字面执行。
好处:复杂的多步骤指令、格式要求严格的输出、边界条件处理——都更可靠了。
代价:你的老 prompt 可能会出问题。
以前 Claude 会"理解你的意图"而忽略不够精确的措辞,现在它会严格按你说的做。如果你的 prompt 里有模糊表述、冗余指令、前后矛盾的要求——4.6 可能帮你兜底了,4.7 不会。
迁移建议:
这是一次"模型变聪明了但你要跟着变精确"的升级。
官方数据:
| 基准 | 提升幅度 |
|---|---|
| 93 任务编码基准 | +13% |
| Rakuten-SWE-Bench(生产任务) | 解决率 3 倍 |
| 多步工作流 | +14%,工具错误更少 |
Rakuten-SWE-Bench 的 3 倍提升最值得关注——这是真实生产环境的任务,不是合成基准。多步工作流 +14% 配合工具错误减少,意味着长任务链的可靠性上了一个台阶。
结合 Claude Code 的变化:默认努力级别从 high 提升到新增的 xhigh(介于 high 和 max 之间),模型会在复杂任务上投入更多推理 token。新增的 /ultrareview 命令提供专门的代码审查会话,Pro 和 Max 用户每月有 3 次免费额度。
4.7 更新了 tokenizer。同样的输入文本,现在会映射到约 1.0~1.35 倍的 token 数,具体取决于内容类型。
价格没变,但同样的输入消耗的 token 多了。算下来实际成本可能上浮 0~35%。
如果你有 token 预算敏感的应用,升级前先拿真实数据跑一轮 token 计数对比。特别是长文档处理场景,35% 的上浮不是小数字。
文档推理错误减少 21%,BigLaw Bench 法律基准准确率 90.9%。
法律场景一直是 LLM 的弱项——不是因为模型"不聪明",而是因为法律文本对精确性的要求极高,一个"或"和"及"的区别就能改变结论。21% 的错误减少是实质性进步。
结合视觉能力的提升,合同审查这个场景变得更可行了:扫描件直接输入 → 条款识别 → 风险分析,全链路的可靠性都上了一截。
安全性与 4.6 基本持平:低欺骗率、低谄媚率、抗 prompt 注入有所改善。
但有两个刻意的限制:
网络安全能力被有意削弱:相比 Mythos Preview,4.7 主动降低了网络安全相关能力。高风险请求会被自动检测和拦截。安全研究人员可以申请 Cyber Verification Program 获取合法使用权限。
受控物质减害建议:这是官方承认的弱项——模型在提供受控物质相关的减害信息时表现不够理想。
官方的措辞是"largely well-aligned and trustworthy, though not fully ideal",并指出 Mythos Preview 仍然是对齐性最好的模型。这说明 4.7 在能力和对齐之间做了权衡——优先提升实用能力,对齐性保持但没有突破。
Anthropic 明确说 Opus 4.7 不如 Mythos Preview"全面",但在多个实用基准上超过 Opus 4.6:办公任务、视觉、文档推理、长上下文、生物、编码、长期连贯性。
这暗示了 Anthropic 的产品线策略:Mythos 系列走前沿探索(更全面但可能更贵或更受限),Opus 系列走实用路线(够强、够稳、价格合理)。对大多数用户来说,4.7 的实用价值比 Mythos Preview 更高。
| 你的场景 | 建议 |
|---|---|
| 有视觉处理需求(图表、截图、扫描件) | 立刻升,提升巨大 |
| 长任务链 / 多步工作流 | 升,可靠性和工具调用都改善了 |
| Claude Code 重度用户 | 升,xhigh 默认级别 + /ultrareview |
| 文档分析 / 法律场景 | 升,文档推理和精确性提升明显 |
| token 预算紧张的高吞吐应用 | 先测,tokenizer 变更可能导致成本上浮 |
| 依赖大量现有 prompt 的生产系统 | 先测后升,指令遵循变化可能需要调 prompt |
| 需要网络安全相关能力 | 不升或申请,能力被有意削弱 |
Opus 4.7 不是"更大更贵"的升级,是"同价但重新分配了能力点"的升级。视觉和指令遵循是最大赢家,tokenizer 变更是最大的隐性成本。升级前先跑你的 prompt 测试套件——如果没有,现在是建一个的好时机。