Bedah Opus 4.7: Yang Patut Di-upgrade, Yang Ditunggu, Yang Harus Hati-hati

Anthropic merilis Claude Opus 4.7 hari ini. Harga tidak berubah (input $5/M, output $25/M), identifier API claude-opus-4-7, tersedia di semua platform — produk Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Sekilas kelihatan seperti "upgrade gratis". Tapi kalau diteliti, ada beberapa perubahan yang langsung memengaruhi cara kerja kamu. Ini bukan sekadar ganti ID model.

Vision: Dari "Bisa Lihat" ke "Bisa Dipakai"

Vision Opus 4.6 masuk kategori "ada tapi tidak reliable" — akurasi visual 54.5% praktis setara lempar koin. 4.7 langsung naik ke 98.5%, dan batas resolusi naik ke 2576px di sisi terpanjang (~3.75 megapiksel), 3× lipat dibanding sebelumnya.

Ini bukan "sedikit lebih baik". Ini naik kelas dari mainan ke perangkat kerja.

Dampak konkret:

Diagram teknis: diagram arsitektur, flow, ER bisa dilempar langsung tanpa transkripsi manual
Struktur kimia: diagram molekul dari paper bisa dibaca langsung
Screenshot: akurasi pengenalan screenshot UI dan error meningkat signifikan
Dokumen scan: OCR untuk kontrak, faktur, dan PDF scan sekarang punya fondasi praktis

Kalau sebelumnya kamu memutar jalan karena vision lemah (mengubah gambar ke teks dulu sebelum masuk model), saatnya evaluasi ulang workflow.

Instruction Following: Kabar Baik yang Juga Kabar Buruk

4.7 meningkatkan kepatuhan terhadap instruksi literal secara besar-besaran. Dulu Claude "pintar" melewatkan detail yang dianggapnya tidak penting atau menafsirkan requirement secara longgar. Sekarang dieksekusi sesuai huruf.

Positif: instruksi multi-step kompleks, format output ketat, penanganan edge case — semua lebih reliable.

Harga: prompt lama kamu mungkin rusak.

Dulu Claude "memahami niatmu" dan mengoreksi ungkapan yang kurang presisi. Sekarang dia melakukan persis apa yang kamu bilang. Kalau prompt-mu punya frasa ambigu, instruksi redundan, atau requirement yang bertentangan — 4.6 mungkin menutupi, 4.7 tidak.

Tips migrasi:

Tes prompt yang ada dulu di skenario berisiko rendah
Fokus ke tempat-tempat di mana "Claude dulu seperti menebak maksudmu"
Ubah ekspektasi implisit jadi instruksi eksplisit

Ini upgrade "model jadi lebih pintar, tapi kamu harus jadi lebih presisi".

Kemampuan Coding: Angka dan Rasa

Data resmi:

Benchmark	Peningkatan
Coding benchmark 93 task	+13%
Rakuten-SWE-Bench (task produksi)	tingkat resolusi 3×
Workflow multi-step	+14%, error tool berkurang

3× di Rakuten-SWE-Bench paling patut disorot — ini task dari lingkungan produksi nyata, bukan benchmark sintetis. +14% di workflow multi-step plus error tool berkurang artinya rantai task panjang naik satu tingkat reliability-nya.

Digabung dengan perubahan Claude Code: level effort default naik dari high ke xhigh yang baru (di antara high dan max), jadi model menghabiskan lebih banyak token reasoning di task kompleks. Command /ultrareview baru menyediakan sesi code review khusus, user Pro dan Max dapat 3× gratis per bulan.

Perubahan Tokenizer: Harga Sama, Token Lebih Banyak

4.7 memperbarui tokenizer. Input teks yang sama sekarang dipetakan ke sekitar 1.0–1.35× jumlah token, tergantung jenis konten.

Harga tidak berubah, tapi input yang sama mengkonsumsi lebih banyak token. Biaya aktual bisa naik 0–35%.

Kalau kamu punya aplikasi sensitif terhadap budget token, lakukan perbandingan hitungan token dengan data riil sebelum upgrade. Khusus untuk skenario dokumen panjang, 35% bukan angka kecil.

Document Reasoning dan Skenario Hukum

Error reasoning dokumen turun 21%, akurasi BigLaw Bench (benchmark hukum) 90.9%.

Skenario hukum selalu jadi titik lemah LLM — bukan karena model "tidak pintar", tapi karena teks hukum menuntut presisi ekstrem. Perbedaan "atau" dan "dan" bisa membalikkan kesimpulan. 21% error berkurang adalah kemajuan substansial.

Digabung dengan peningkatan vision, review kontrak jadi workflow yang jauh lebih feasible: scan langsung input → ekstraksi klausul → analisis risiko, reliability naik di seluruh pipeline.

Keamanan dan Batasan: Trade-off yang Disengaja

Profil keamanan kurang lebih sama dengan 4.6: tingkat penipuan rendah, sycophancy rendah, resistensi terhadap prompt injection membaik.

Tapi ada dua batasan yang sengaja:

Kemampuan cybersecurity sengaja dikurangi: dibanding Mythos Preview, 4.7 aktif menurunkan kemampuan cyber. Request berisiko tinggi otomatis dideteksi dan diblok. Researcher keamanan bisa apply ke Cyber Verification Program untuk akses legitimate.
Harm reduction zat terkendali: kelemahan yang diakui — model tidak optimal memberikan info harm reduction terkait zat terkendali.

Pernyataan resmi: "largely well-aligned and trustworthy, though not fully ideal", sambil menegaskan Mythos Preview masih jadi model yang paling well-aligned. 4.7 melakukan trade-off — prioritaskan kemampuan praktis, jaga alignment tanpa terobosan.

Hubungan dengan Mythos Preview

Anthropic secara eksplisit bilang Opus 4.7 kurang capable secara menyeluruh dibanding Mythos Preview, tapi melampaui Opus 4.6 di beberapa benchmark praktis: task kantor, vision, document reasoning, long context, biologi, coding, koherensi jangka panjang.

Ini menyinggung strategi produk Anthropic: lini Mythos mendorong frontier (lebih capable tapi mungkin lebih mahal atau terbatas), lini Opus adalah kuda kerja (cukup kuat, stabil, harga masuk akal). Untuk kebanyakan user, 4.7 lebih bernilai praktis dibanding Mythos Preview.

Matriks Keputusan Upgrade

Situasi Kamu	Rekomendasi
Workflow berat vision (diagram, screenshot, scan)	Upgrade sekarang, peningkatannya besar
Rantai task panjang / workflow multi-step	Upgrade, reliability dan tool use membaik
User berat Claude Code	Upgrade, xhigh default + /ultrareview
Analisis dokumen / hukum	Upgrade, reasoning dan presisi jelas meningkat
App throughput tinggi yang sensitif budget token	Tes dulu, perubahan tokenizer bisa menaikkan biaya
Sistem produksi dengan banyak prompt eksisting	Tes sebelum upgrade, perubahan instruction following mungkin butuh tuning prompt
Butuh kemampuan terkait cybersecurity	Jangan upgrade atau apply, kemampuan sengaja dikurangi

Satu Kalimat

Opus 4.7 bukan upgrade "lebih besar, lebih mahal". Ini upgrade "harga sama, poin kemampuan direalokasi". Vision dan instruction following adalah pemenang terbesar. Perubahan tokenizer adalah biaya tersembunyi terbesar. Jalankan prompt test suite sebelum upgrade — kalau belum punya, sekarang saat yang tepat untuk membuatnya.