Opus 4.7 rilis: vision naik dari 54% ke 98%, tapi perubahan tokenizer bisa menaikkan biaya diam-diam 35%
Anthropic merilis Claude Opus 4.7 hari ini. Harga tidak berubah (input $5/M, output $25/M), identifier API claude-opus-4-7, tersedia di semua platform — produk Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Sekilas kelihatan seperti "upgrade gratis". Tapi kalau diteliti, ada beberapa perubahan yang langsung memengaruhi cara kerja kamu. Ini bukan sekadar ganti ID model.
Vision Opus 4.6 masuk kategori "ada tapi tidak reliable" — akurasi visual 54.5% praktis setara lempar koin. 4.7 langsung naik ke 98.5%, dan batas resolusi naik ke 2576px di sisi terpanjang (~3.75 megapiksel), 3× lipat dibanding sebelumnya.
Ini bukan "sedikit lebih baik". Ini naik kelas dari mainan ke perangkat kerja.
Dampak konkret:
Kalau sebelumnya kamu memutar jalan karena vision lemah (mengubah gambar ke teks dulu sebelum masuk model), saatnya evaluasi ulang workflow.
4.7 meningkatkan kepatuhan terhadap instruksi literal secara besar-besaran. Dulu Claude "pintar" melewatkan detail yang dianggapnya tidak penting atau menafsirkan requirement secara longgar. Sekarang dieksekusi sesuai huruf.
Positif: instruksi multi-step kompleks, format output ketat, penanganan edge case — semua lebih reliable.
Harga: prompt lama kamu mungkin rusak.
Dulu Claude "memahami niatmu" dan mengoreksi ungkapan yang kurang presisi. Sekarang dia melakukan persis apa yang kamu bilang. Kalau prompt-mu punya frasa ambigu, instruksi redundan, atau requirement yang bertentangan — 4.6 mungkin menutupi, 4.7 tidak.
Tips migrasi:
Ini upgrade "model jadi lebih pintar, tapi kamu harus jadi lebih presisi".
Data resmi:
| Benchmark | Peningkatan |
|---|---|
| Coding benchmark 93 task | +13% |
| Rakuten-SWE-Bench (task produksi) | tingkat resolusi 3× |
| Workflow multi-step | +14%, error tool berkurang |
3× di Rakuten-SWE-Bench paling patut disorot — ini task dari lingkungan produksi nyata, bukan benchmark sintetis. +14% di workflow multi-step plus error tool berkurang artinya rantai task panjang naik satu tingkat reliability-nya.
Digabung dengan perubahan Claude Code: level effort default naik dari high ke xhigh yang baru (di antara high dan max), jadi model menghabiskan lebih banyak token reasoning di task kompleks. Command /ultrareview baru menyediakan sesi code review khusus, user Pro dan Max dapat 3× gratis per bulan.
4.7 memperbarui tokenizer. Input teks yang sama sekarang dipetakan ke sekitar 1.0–1.35× jumlah token, tergantung jenis konten.
Harga tidak berubah, tapi input yang sama mengkonsumsi lebih banyak token. Biaya aktual bisa naik 0–35%.
Kalau kamu punya aplikasi sensitif terhadap budget token, lakukan perbandingan hitungan token dengan data riil sebelum upgrade. Khusus untuk skenario dokumen panjang, 35% bukan angka kecil.
Error reasoning dokumen turun 21%, akurasi BigLaw Bench (benchmark hukum) 90.9%.
Skenario hukum selalu jadi titik lemah LLM — bukan karena model "tidak pintar", tapi karena teks hukum menuntut presisi ekstrem. Perbedaan "atau" dan "dan" bisa membalikkan kesimpulan. 21% error berkurang adalah kemajuan substansial.
Digabung dengan peningkatan vision, review kontrak jadi workflow yang jauh lebih feasible: scan langsung input → ekstraksi klausul → analisis risiko, reliability naik di seluruh pipeline.
Profil keamanan kurang lebih sama dengan 4.6: tingkat penipuan rendah, sycophancy rendah, resistensi terhadap prompt injection membaik.
Tapi ada dua batasan yang sengaja:
Kemampuan cybersecurity sengaja dikurangi: dibanding Mythos Preview, 4.7 aktif menurunkan kemampuan cyber. Request berisiko tinggi otomatis dideteksi dan diblok. Researcher keamanan bisa apply ke Cyber Verification Program untuk akses legitimate.
Harm reduction zat terkendali: kelemahan yang diakui — model tidak optimal memberikan info harm reduction terkait zat terkendali.
Pernyataan resmi: "largely well-aligned and trustworthy, though not fully ideal", sambil menegaskan Mythos Preview masih jadi model yang paling well-aligned. 4.7 melakukan trade-off — prioritaskan kemampuan praktis, jaga alignment tanpa terobosan.
Anthropic secara eksplisit bilang Opus 4.7 kurang capable secara menyeluruh dibanding Mythos Preview, tapi melampaui Opus 4.6 di beberapa benchmark praktis: task kantor, vision, document reasoning, long context, biologi, coding, koherensi jangka panjang.
Ini menyinggung strategi produk Anthropic: lini Mythos mendorong frontier (lebih capable tapi mungkin lebih mahal atau terbatas), lini Opus adalah kuda kerja (cukup kuat, stabil, harga masuk akal). Untuk kebanyakan user, 4.7 lebih bernilai praktis dibanding Mythos Preview.
| Situasi Kamu | Rekomendasi |
|---|---|
| Workflow berat vision (diagram, screenshot, scan) | Upgrade sekarang, peningkatannya besar |
| Rantai task panjang / workflow multi-step | Upgrade, reliability dan tool use membaik |
| User berat Claude Code | Upgrade, xhigh default + /ultrareview |
| Analisis dokumen / hukum | Upgrade, reasoning dan presisi jelas meningkat |
| App throughput tinggi yang sensitif budget token | Tes dulu, perubahan tokenizer bisa menaikkan biaya |
| Sistem produksi dengan banyak prompt eksisting | Tes sebelum upgrade, perubahan instruction following mungkin butuh tuning prompt |
| Butuh kemampuan terkait cybersecurity | Jangan upgrade atau apply, kemampuan sengaja dikurangi |
Opus 4.7 bukan upgrade "lebih besar, lebih mahal". Ini upgrade "harga sama, poin kemampuan direalokasi". Vision dan instruction following adalah pemenang terbesar. Perubahan tokenizer adalah biaya tersembunyi terbesar. Jalankan prompt test suite sebelum upgrade — kalau belum punya, sekarang saat yang tepat untuk membuatnya.