Opus 4.7 è uscito: vision da 54% a 98%, ma il cambio di tokenizer può far salire i costi in silenzio del 35%
Anthropic ha rilasciato Claude Opus 4.7 oggi. Prezzi invariati (input $5/M, output $25/M), identificatore API claude-opus-4-7, disponibile su tutte le piattaforme — prodotti Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
A prima vista sembra un "aggiornamento gratuito". Ma guardando da vicino, ci sono diverse modifiche che impattano direttamente sul modo in cui lavori. Non è solo uno scambio di ID modello.
La vision di Opus 4.6 era nella categoria "tecnicamente presente ma inaffidabile" — 54.5% di accuratezza visiva, praticamente lanciare una moneta. Opus 4.7 sale di colpo al 98.5%, e il limite di risoluzione sale a 2576px sul lato lungo (~3.75 megapixel), il triplo di prima.
Non è "un po' meglio". È il salto da giocattolo a strumento.
Impatto concreto:
Se aggiravi la debolezza di vision convertendo prima le immagini in testo, è il momento di rivalutare il workflow.
4.7 ha migliorato in modo sostanziale il rispetto letterale delle istruzioni. Prima Claude "intelligentemente" saltava dettagli che riteneva poco importanti o interpretava i requisiti in modo lasco. Ora esegue alla lettera.
Pro: istruzioni multi-step complesse, requisiti di formato stretti, gestione dei casi limite — tutto più affidabile.
Costo: i tuoi prompt esistenti possono rompersi.
Claude "capiva la tua intenzione" e compensava formulazioni imprecise. Ora fa esattamente quello che dici. Se i tuoi prompt hanno espressioni ambigue, istruzioni ridondanti, requisiti contraddittori — 4.6 forse ti copriva, 4.7 no.
Consigli di migrazione:
È un aggiornamento "il modello è diventato più intelligente, quindi devi diventare più preciso".
Dati ufficiali:
| Benchmark | Miglioramento |
|---|---|
| Benchmark coding 93 task | +13% |
| Rakuten-SWE-Bench (task di produzione) | tasso di risoluzione 3× |
| Workflow multi-step | +14%, meno errori di tool |
Il 3× su Rakuten-SWE-Bench è la parte più notevole — sono task reali di ambiente di produzione, non benchmark sintetici. +14% sui workflow multi-step più la riduzione degli errori di tool significa che le catene lunghe di task hanno fatto un salto di qualità in affidabilità.
Uniamo le modifiche di Claude Code: il livello di sforzo predefinito sale da high al nuovo xhigh (tra high e max), quindi il modello spende più token di reasoning sui task complessi. Il nuovo comando /ultrareview offre sessioni dedicate di revisione del codice, gli utenti Pro e Max hanno 3 gratuite al mese.
4.7 ha aggiornato il tokenizer. Lo stesso testo di input ora mappa a circa 1.0–1.35× il numero di token, a seconda del tipo di contenuto.
Il prezzo non è cambiato, ma lo stesso input consuma più token. Il costo reale può salire dello 0–35%.
Se hai applicazioni sensibili al budget di token, fai un confronto di conteggio su dati reali prima dell'aggiornamento. Soprattutto negli scenari con documenti lunghi, un 35% non è un errore di arrotondamento.
Errori di ragionamento su documenti -21%. Accuratezza BigLaw Bench (benchmark legale) al 90.9%.
Gli scenari legali sono sempre stati il punto debole degli LLM — non perché i modelli siano "stupidi", ma perché il testo legale richiede una precisione estrema. La differenza tra "o" ed "e" può ribaltare una conclusione. Un 21% di errori in meno è progresso sostanziale.
Combinato con il miglioramento di vision, la revisione contratti diventa un workflow molto più realistico: scansione diretta in ingresso → estrazione clausole → analisi rischi, con affidabilità in rialzo lungo tutta la pipeline.
Profilo di sicurezza equivalente a 4.6: tasso di inganno basso, adulazione bassa, migliore resistenza al prompt injection.
Ma due limiti intenzionali:
Capacità cybersecurity deliberatamente ridotte: rispetto a Mythos Preview, 4.7 ha attivamente abbassato le capacità cyber. Richieste ad alto rischio vengono rilevate e bloccate automaticamente. I ricercatori di sicurezza possono candidarsi al Cyber Verification Program per un accesso legittimo.
Riduzione dei danni per sostanze controllate: un punto debole ufficialmente riconosciuto — il modello non è ottimale nel fornire informazioni di riduzione del danno relative a sostanze controllate.
La formulazione ufficiale è "largely well-aligned and trustworthy, though not fully ideal", sottolineando che Mythos Preview resta il modello meglio allineato. 4.7 ha fatto un trade-off — dare priorità alla capacità pratica, mantenere l'allineamento senza sfondare.
Anthropic dice esplicitamente che Opus 4.7 è meno complessivamente capace di Mythos Preview, ma supera Opus 4.6 su diversi benchmark pratici: task da ufficio, vision, ragionamento su documenti, contesto lungo, biologia, coding, coerenza a lungo raggio.
Questo fa intuire la strategia di prodotto di Anthropic: la linea Mythos spinge la frontiera (più capace ma probabilmente più costosa o limitata), la linea Opus è il cavallo di fatica (abbastanza forte, stabile, prezzo ragionevole). Per la maggior parte degli utenti, 4.7 ha più valore pratico di Mythos Preview.
| La tua situazione | Raccomandazione |
|---|---|
| Workflow con forte componente vision (diagrammi, screenshot, scansioni) | Aggiorna subito, il salto è enorme |
| Catene di task lunghe / workflow multi-step | Aggiorna, affidabilità e uso tool migliorati |
| Utente intensivo di Claude Code | Aggiorna, xhigh di default + /ultrareview |
| Analisi di documenti / legale | Aggiorna, ragionamento e precisione nettamente migliori |
| App ad alto throughput sensibili al budget di token | Prima testa, modifica del tokenizer può alzare i costi |
| Sistemi in produzione con molti prompt esistenti | Testa prima di aggiornare, il cambio nel seguire istruzioni può richiedere tuning |
| Necessità legate alla cybersecurity | Non aggiornare o fai domanda, capacità deliberatamente ridotte |
Opus 4.7 non è un aggiornamento "più grande, più costoso". È un aggiornamento "stesso prezzo, punti capacità ridistribuiti". Vision e seguire istruzioni sono i vincitori principali. La modifica del tokenizer è il costo nascosto più grande. Fai girare la tua test suite di prompt prima di aggiornare — e se non ne hai una, ora è un buon momento per costruirla.