Opus 4.7 リリース:ビジョン精度が 54% から 98% に。だが tokenizer 変更でコストが密かに 35% 上昇する可能性
Anthropic が本日 Claude Opus 4.7 をリリースした。料金据え置き(入力 $5/M、出力 $25/M)、API 識別子は claude-opus-4-7、全プラットフォーム対応——Claude 製品、API、Bedrock、Vertex AI、Microsoft Foundry。
一見「無料アップグレード」だが、詳しく見るといくつか作業の仕方に直接影響する変更がある。モデル ID を差し替えるだけで済む話ではない。
Opus 4.6 のビジョンは「あるにはあるが実用的ではない」枠——視覚精度 54.5% は、ほぼコイン投げと同じ。4.7 は一気に 98.5% まで引き上げ、解像度上限も長辺 2576px(約 375 万画素)、従来比 3 倍になった。
「少し良くなった」ではなく、「おもちゃ」から「道具」への格上げだ。
具体的な影響:
ビジョンの弱さを迂回して(画像を先にテキスト化してからモデルに渡すなど)いた人は、ワークフローを見直すタイミングだ。
4.7 は字義通りの指示追従を大幅に改善した。以前の Claude は「賢く」重要でないと判断した部分をスキップしたり、要求を緩く解釈したりしていた。今は字義通りに実行する。
プラス面:複雑な多段階指示、厳密なフォーマット要求、境界条件の処理——どれも信頼性が上がった。
マイナス面:既存のプロンプトが壊れる可能性がある。
以前は Claude が「意図を汲んで」曖昧な表現を補正していた。今は言った通りに動く。曖昧な表現、冗長な指示、矛盾する要求があるプロンプト——4.6 は補ってくれていたかもしれないが、4.7 はそうしない。
移行のポイント:
これは「モデルが賢くなったから、あなたも精密にならなければいけない」アップグレードだ。
公式データ:
| ベンチマーク | 改善幅 |
|---|---|
| 93 タスクコーディングベンチマーク | +13% |
| Rakuten-SWE-Bench(本番タスク) | 解決率 3 倍 |
| 多段階ワークフロー | +14%、ツールエラー削減 |
Rakuten-SWE-Bench の 3 倍は最も注目すべき数字——合成ベンチマークではなく、実際の本番環境のタスクだ。多段階ワークフロー +14% とツールエラー削減の組み合わせは、長いタスクチェーンの信頼性が一段上がったことを意味する。
Claude Code の変更と合わせると:デフォルトの努力レベルが high から新しい xhigh(high と max の間)に引き上げられ、複雑なタスクにより多くの推論トークンを割く。新しい /ultrareview コマンドは専用のコードレビューセッションを提供し、Pro と Max ユーザーは月 3 回無料で使える。
4.7 はトークナイザーを更新した。同じ入力テキストが約 1.0〜1.35 倍のトークン数にマップされるようになった。内容による。
価格は変わらないが、同じ入力が消費するトークンは増えた。実際のコストは 0〜35% 上昇する可能性がある。
トークン予算にシビアなアプリケーションを運用しているなら、アップグレード前に実データでトークン数の比較を取ること。特に長文処理のシナリオでは、35% の上昇は無視できない。
文書推論エラー 21% 減、BigLaw Bench 法務ベンチマーク精度 90.9%。
法務シナリオは常に LLM の弱点だった——モデルが「賢くない」わけではなく、法律文書が精密性を極端に要求するため。「または」と「および」の違いが結論をひっくり返す世界だ。21% のエラー削減は実質的な進歩。
ビジョンの向上と組み合わせると、契約書レビューが現実的なワークフローになる:スキャン文書を直接入力 → 条項抽出 → リスク分析、パイプライン全体の信頼性が底上げされた。
安全性プロファイルは 4.6 とほぼ同等:低い欺瞞率、低い迎合率、プロンプトインジェクション耐性の改善。
ただし 2 つの意図的な制限:
サイバーセキュリティ能力の意図的な削減:Mythos Preview に比べ、4.7 はサイバー関連能力を主動的に下げている。高リスク要求は自動検知・ブロックされる。セキュリティ研究者は Cyber Verification Program に申請すれば正当な用途でアクセスできる。
規制物質のハームリダクション:公式に認められた弱点——規制物質関連のハームリダクション情報提供で理想的とは言えない挙動。
公式表現は「largely well-aligned and trustworthy, though not fully ideal」で、Mythos Preview が最もアラインメントの良いモデルのままであることを明言している。4.7 はトレードオフをした——実用能力を優先し、アラインメントは維持するが突破はしない。
Anthropic は Opus 4.7 が Mythos Preview ほど「包括的」ではないと明言しているが、複数の実用ベンチマークで Opus 4.6 を上回る:オフィスタスク、ビジョン、文書推論、長文コンテキスト、生物、コーディング、長期的な一貫性。
これは Anthropic のプロダクト戦略を示唆している:Mythos 系列はフロンティア探索(より包括的だが高価または制限あり)、Opus 系列は実用ライン(十分強力、安定、適正価格)。大半のユーザーにとって、4.7 の実用価値は Mythos Preview より高い。
| あなたの状況 | 推奨 |
|---|---|
| ビジョン処理の需要あり(図表、スクリーンショット、スキャン) | 即アップグレード、向上幅が巨大 |
| 長いタスクチェーン / 多段階ワークフロー | アップグレード、信頼性とツール呼び出しが改善 |
| Claude Code ヘビーユーザー | アップグレード、xhigh デフォルト + /ultrareview |
| 文書分析 / 法務シナリオ | アップグレード、推論と精度の向上が顕著 |
| トークン予算にシビアな高スループットアプリ | 先にテスト、トークナイザー変更でコスト上昇の可能性 |
| 多数の既存プロンプトに依存する本番システム | テスト後にアップグレード、指示追従の変化でプロンプト調整が必要な可能性 |
| サイバーセキュリティ関連能力が必要 | 見送りか申請、能力が意図的に削減されている |
Opus 4.7 は「でかくなって高くなった」アップグレードではない。「同じ料金で能力ポイントを再分配した」アップグレードだ。ビジョンと指示追従が最大の勝者。トークナイザー変更が最大の隠れコスト。アップグレード前にプロンプトテストスイートを回せ——なければ今が作る良いタイミングだ。