Opus 4.7 深度拆解：該升的、該等的、該小心的

Anthropic 今天發布了 Claude Opus 4.7。定價不變（輸入 $5/M、輸出 $25/M），API 識別碼 claude-opus-4-7，全平台可用——Claude 產品線、API、Bedrock、Vertex AI、Microsoft Foundry。

看起來是一次「免費升級」。但細看下來，有幾處變化會直接影響你的工作方式，不是換個模型 ID 就完事的。

視覺：從「能看」到「能用」

Opus 4.6 的視覺能力算是「有但不好用」——54.5% 的視覺準確率，意味著看圖差不多是擲銅板。4.7 直接拉到 98.5%，同時解析度上限從之前的水準提升到 2576px 長邊（約 375 萬像素），是前代的 3 倍。

這不是「提升了一點」，是從「玩具」變成了「工具」。

實際影響：

如果你之前因為視覺能力不夠而繞路（先手動轉文字再餵給模型），現在可以重新評估工作流了。

4.7 大幅改善了對字面指令的遵循。以前 Claude 會「聰明地」跳過它覺得不重要的指令細節，或者鬆散解讀你的要求。現在它照字面執行。

好處：複雜的多步驟指令、格式要求嚴格的輸出、邊界條件處理——都更可靠了。

代價：你的老 prompt 可能會出問題。

以前 Claude 會「理解你的意圖」而忽略不夠精確的措辭，現在它會嚴格按你說的做。如果你的 prompt 裡有模糊表述、冗餘指令、前後矛盾的要求——4.6 可能幫你兜底了，4.7 不會。

遷移建議：

這是一次「模型變聰明了但你要跟著變精確」的升級。

官方資料：

Rakuten-SWE-Bench 的 3 倍提升最值得關注——這是真實生產環境的任務，不是合成基準。多步工作流 +14% 配合工具錯誤減少，意味著長任務鏈的可靠度上了一個台階。

結合 Claude Code 的變化：預設努力等級從 high 提升到新增的 xhigh（介於 high 和 max 之間），模型會在複雜任務上投入更多推理 token。新增的 /ultrareview 指令提供專門的程式碼審查對話，Pro 和 Max 使用者每月有 3 次免費額度。

4.7 更新了 tokenizer。同樣的輸入文本，現在會映射到約 1.0～1.35 倍的 token 數，具體取決於內容類型。

價格沒變，但同樣的輸入消耗的 token 多了。算下來實際成本可能上浮 0～35%。

如果你有 token 預算敏感的應用，升級前先拿真實資料跑一輪 token 計數對比。特別是長文件處理場景，35% 的上浮不是小數字。

文件推理錯誤減少 21%，BigLaw Bench 法律基準準確率 90.9%。

法律場景一直是 LLM 的弱項——不是因為模型「不聰明」，而是因為法律文本對精確性的要求極高，一個「或」和「及」的差別就能改變結論。21% 的錯誤減少是實質性進步。

結合視覺能力的提升，合約審查這個場景變得更可行了：掃描檔直接輸入 → 條款辨識 → 風險分析，全鏈路的可靠度都上了一截。

安全性與 4.6 基本持平：低欺騙率、低諂媚率、抗 prompt 注入有所改善。

但有兩個刻意的限制：

網路安全能力被有意削弱：相比 Mythos Preview，4.7 主動降低了網路安全相關能力。高風險請求會被自動偵測和攔截。安全研究人員可以申請 Cyber Verification Program 取得合法使用權限。
管制物質減害建議：這是官方承認的弱項——模型在提供管制物質相關的減害資訊時表現不夠理想。

官方的措辭是「largely well-aligned and trustworthy, though not fully ideal」，並指出 Mythos Preview 仍然是對齊性最好的模型。這說明 4.7 在能力和對齊之間做了權衡——優先提升實用能力，對齊性保持但沒有突破。

Anthropic 明確說 Opus 4.7 不如 Mythos Preview「全面」，但在多個實用基準上超過 Opus 4.6：辦公任務、視覺、文件推理、長上下文、生物、編碼、長期連貫性。

這暗示了 Anthropic 的產品線策略：Mythos 系列走前沿探索（更全面但可能更貴或更受限），Opus 系列走實用路線（夠強、夠穩、價格合理）。對大多數使用者來說，4.7 的實用價值比 Mythos Preview 更高。

Opus 4.7 不是「更大更貴」的升級，是「同價但重新分配了能力點」的升級。視覺和指令遵循是最大贏家，tokenizer 變更是最大的隱性成本。升級前先跑你的 prompt 測試套件——如果沒有，現在是建一個的好時機。