免費

Opus 4.7 深度拆解:該升的、該等的、該小心的

Opus 4.7 發布:視覺能力從 54% 到 98%,但 tokenizer 變更可能讓成本悄悄上漲 35%


Anthropic 今天發布了 Claude Opus 4.7。定價不變(輸入 $5/M、輸出 $25/M),API 識別碼 claude-opus-4-7,全平台可用——Claude 產品線、API、Bedrock、Vertex AI、Microsoft Foundry。

看起來是一次「免費升級」。但細看下來,有幾處變化會直接影響你的工作方式,不是換個模型 ID 就完事的。


視覺:從「能看」到「能用」

Opus 4.6 的視覺能力算是「有但不好用」——54.5% 的視覺準確率,意味著看圖差不多是擲銅板。4.7 直接拉到 98.5%,同時解析度上限從之前的水準提升到 2576px 長邊(約 375 萬像素),是前代的 3 倍。

這不是「提升了一點」,是從「玩具」變成了「工具」。

實際影響:

  • 技術圖表:架構圖、流程圖、ER 圖可以直接丟給它讀,不用再手動描述
  • 化學結構式:論文裡的分子結構圖可以直接辨識
  • 截圖分析:UI 截圖、報錯截圖的辨識可靠度大幅提升
  • 文件掃描檔:合約、發票等掃描 PDF 的 OCR 準確度有了實用基礎

如果你之前因為視覺能力不夠而繞路(先手動轉文字再餵給模型),現在可以重新評估工作流了。


指令遵循:好消息也是壞消息

4.7 大幅改善了對字面指令的遵循。以前 Claude 會「聰明地」跳過它覺得不重要的指令細節,或者鬆散解讀你的要求。現在它照字面執行。

好處:複雜的多步驟指令、格式要求嚴格的輸出、邊界條件處理——都更可靠了。

代價:你的老 prompt 可能會出問題。

以前 Claude 會「理解你的意圖」而忽略不夠精確的措辭,現在它會嚴格按你說的做。如果你的 prompt 裡有模糊表述、冗餘指令、前後矛盾的要求——4.6 可能幫你兜底了,4.7 不會。

遷移建議:

  1. 先在低風險場景測試已有 prompt
  2. 重點檢查「Claude 以前似乎在猜你的意思」的地方
  3. 把隱式期望改成顯式指令

這是一次「模型變聰明了但你要跟著變精確」的升級。


編碼能力:數字和體感

官方資料:

基準 提升幅度
93 任務編碼基準 +13%
Rakuten-SWE-Bench(生產任務) 解決率 3 倍
多步工作流 +14%,工具錯誤更少

Rakuten-SWE-Bench 的 3 倍提升最值得關注——這是真實生產環境的任務,不是合成基準。多步工作流 +14% 配合工具錯誤減少,意味著長任務鏈的可靠度上了一個台階。

結合 Claude Code 的變化:預設努力等級從 high 提升到新增的 xhigh(介於 high 和 max 之間),模型會在複雜任務上投入更多推理 token。新增的 /ultrareview 指令提供專門的程式碼審查對話,Pro 和 Max 使用者每月有 3 次免費額度。


Tokenizer 變更:不花錢但會多花 token

4.7 更新了 tokenizer。同樣的輸入文本,現在會映射到約 1.0~1.35 倍的 token 數,具體取決於內容類型。

價格沒變,但同樣的輸入消耗的 token 多了。算下來實際成本可能上浮 0~35%。

如果你有 token 預算敏感的應用,升級前先拿真實資料跑一輪 token 計數對比。特別是長文件處理場景,35% 的上浮不是小數字。


文件推理和法律場景

文件推理錯誤減少 21%,BigLaw Bench 法律基準準確率 90.9%。

法律場景一直是 LLM 的弱項——不是因為模型「不聰明」,而是因為法律文本對精確性的要求極高,一個「或」和「及」的差別就能改變結論。21% 的錯誤減少是實質性進步。

結合視覺能力的提升,合約審查這個場景變得更可行了:掃描檔直接輸入 → 條款辨識 → 風險分析,全鏈路的可靠度都上了一截。


安全和限制:有意為之的取捨

安全性與 4.6 基本持平:低欺騙率、低諂媚率、抗 prompt 注入有所改善。

但有兩個刻意的限制:

  1. 網路安全能力被有意削弱:相比 Mythos Preview,4.7 主動降低了網路安全相關能力。高風險請求會被自動偵測和攔截。安全研究人員可以申請 Cyber Verification Program 取得合法使用權限。

  2. 管制物質減害建議:這是官方承認的弱項——模型在提供管制物質相關的減害資訊時表現不夠理想。

官方的措辭是「largely well-aligned and trustworthy, though not fully ideal」,並指出 Mythos Preview 仍然是對齊性最好的模型。這說明 4.7 在能力和對齊之間做了權衡——優先提升實用能力,對齊性保持但沒有突破。


跟 Mythos Preview 的關係

Anthropic 明確說 Opus 4.7 不如 Mythos Preview「全面」,但在多個實用基準上超過 Opus 4.6:辦公任務、視覺、文件推理、長上下文、生物、編碼、長期連貫性。

這暗示了 Anthropic 的產品線策略:Mythos 系列走前沿探索(更全面但可能更貴或更受限),Opus 系列走實用路線(夠強、夠穩、價格合理)。對大多數使用者來說,4.7 的實用價值比 Mythos Preview 更高。


升級決策清單

你的場景 建議
有視覺處理需求(圖表、截圖、掃描檔) 立刻升,提升巨大
長任務鏈 / 多步工作流 ,可靠度和工具呼叫都改善了
Claude Code 重度使用者 ,xhigh 預設等級 + /ultrareview
文件分析 / 法律場景 ,文件推理和精確性提升明顯
token 預算緊張的高吞吐應用 先測,tokenizer 變更可能導致成本上浮
依賴大量現有 prompt 的生產系統 先測後升,指令遵循變化可能需要調 prompt
需要網路安全相關能力 不升或申請,能力被有意削弱

一句話

Opus 4.7 不是「更大更貴」的升級,是「同價但重新分配了能力點」的升級。視覺和指令遵循是最大贏家,tokenizer 變更是最大的隱性成本。升級前先跑你的 prompt 測試套件——如果沒有,現在是建一個的好時機。