Opus 4.7 深度拆解：该升的、该等的、该小心的

Anthropic 今天发布了 Claude Opus 4.7。定价不变（输入 $5/M、输出 $25/M），API 标识 claude-opus-4-7，全平台可用——Claude 产品线、API、Bedrock、Vertex AI、Microsoft Foundry。

看起来是一次"免费升级"。但细看下来，有几处变化会直接影响你的工作方式，不是换个模型 ID 就完事的。

视觉：从"能看"到"能用"

Opus 4.6 的视觉能力算是"有但不好用"——54.5% 的视觉准确率，意味着看图差不多是抛硬币。4.7 直接拉到 98.5%，同时分辨率上限从之前的水平提升到 2576px 长边（约 375 万像素），是前代的 3 倍。

这不是"提升了一点"，是从"玩具"变成了"工具"。

实际影响：

如果你之前因为视觉能力不够而绕路（先手动转文字再喂给模型），现在可以重新评估工作流了。

4.7 大幅改善了对字面指令的遵循。以前 Claude 会"聪明地"跳过它觉得不重要的指令细节，或者松散解读你的要求。现在它照字面执行。

好处：复杂的多步骤指令、格式要求严格的输出、边界条件处理——都更可靠了。

代价：你的老 prompt 可能会出问题。

以前 Claude 会"理解你的意图"而忽略不够精确的措辞，现在它会严格按你说的做。如果你的 prompt 里有模糊表述、冗余指令、前后矛盾的要求——4.6 可能帮你兜底了，4.7 不会。

迁移建议：

这是一次"模型变聪明了但你要跟着变精确"的升级。

官方数据：

Rakuten-SWE-Bench 的 3 倍提升最值得关注——这是真实生产环境的任务，不是合成基准。多步工作流 +14% 配合工具错误减少，意味着长任务链的可靠性上了一个台阶。

结合 Claude Code 的变化：默认努力级别从 high 提升到新增的 xhigh（介于 high 和 max 之间），模型会在复杂任务上投入更多推理 token。新增的 /ultrareview 命令提供专门的代码审查会话，Pro 和 Max 用户每月有 3 次免费额度。

4.7 更新了 tokenizer。同样的输入文本，现在会映射到约 1.0～1.35 倍的 token 数，具体取决于内容类型。

价格没变，但同样的输入消耗的 token 多了。算下来实际成本可能上浮 0～35%。

如果你有 token 预算敏感的应用，升级前先拿真实数据跑一轮 token 计数对比。特别是长文档处理场景，35% 的上浮不是小数字。

文档推理错误减少 21%，BigLaw Bench 法律基准准确率 90.9%。

法律场景一直是 LLM 的弱项——不是因为模型"不聪明"，而是因为法律文本对精确性的要求极高，一个"或"和"及"的区别就能改变结论。21% 的错误减少是实质性进步。

结合视觉能力的提升，合同审查这个场景变得更可行了：扫描件直接输入 → 条款识别 → 风险分析，全链路的可靠性都上了一截。

安全性与 4.6 基本持平：低欺骗率、低谄媚率、抗 prompt 注入有所改善。

但有两个刻意的限制：

网络安全能力被有意削弱：相比 Mythos Preview，4.7 主动降低了网络安全相关能力。高风险请求会被自动检测和拦截。安全研究人员可以申请 Cyber Verification Program 获取合法使用权限。
受控物质减害建议：这是官方承认的弱项——模型在提供受控物质相关的减害信息时表现不够理想。

官方的措辞是"largely well-aligned and trustworthy, though not fully ideal"，并指出 Mythos Preview 仍然是对齐性最好的模型。这说明 4.7 在能力和对齐之间做了权衡——优先提升实用能力，对齐性保持但没有突破。

Anthropic 明确说 Opus 4.7 不如 Mythos Preview"全面"，但在多个实用基准上超过 Opus 4.6：办公任务、视觉、文档推理、长上下文、生物、编码、长期连贯性。

这暗示了 Anthropic 的产品线策略：Mythos 系列走前沿探索（更全面但可能更贵或更受限），Opus 系列走实用路线（够强、够稳、价格合理）。对大多数用户来说，4.7 的实用价值比 Mythos Preview 更高。

Opus 4.7 不是"更大更贵"的升级，是"同价但重新分配了能力点"的升级。视觉和指令遵循是最大赢家，tokenizer 变更是最大的隐性成本。升级前先跑你的 prompt 测试套件——如果没有，现在是建一个的好时机。