Opus 4.7 in dettaglio: cosa aggiornare, cosa aspettare, a cosa fare attenzione

Anthropic ha rilasciato Claude Opus 4.7 oggi. Prezzi invariati (input $5/M, output $25/M), identificatore API claude-opus-4-7, disponibile su tutte le piattaforme — prodotti Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

A prima vista sembra un "aggiornamento gratuito". Ma guardando da vicino, ci sono diverse modifiche che impattano direttamente sul modo in cui lavori. Non è solo uno scambio di ID modello.

Vision: da "vede" a "davvero utilizzabile"

La vision di Opus 4.6 era nella categoria "tecnicamente presente ma inaffidabile" — 54.5% di accuratezza visiva, praticamente lanciare una moneta. Opus 4.7 sale di colpo al 98.5%, e il limite di risoluzione sale a 2576px sul lato lungo (~3.75 megapixel), il triplo di prima.

Non è "un po' meglio". È il salto da giocattolo a strumento.

Impatto concreto:

Diagrammi tecnici: diagrammi di architettura, flow, ER si possono dare in pasto direttamente, niente trascrizione manuale
Strutture chimiche: i diagrammi molecolari dei paper si leggono direttamente
Screenshot: l'affidabilità del riconoscimento di screenshot UI ed errori sale in modo significativo
Documenti scansionati: OCR su contratti, fatture e PDF scansionati ha ora una base pratica

Se aggiravi la debolezza di vision convertendo prima le immagini in testo, è il momento di rivalutare il workflow.

Seguire le istruzioni: la buona notizia è anche quella cattiva

4.7 ha migliorato in modo sostanziale il rispetto letterale delle istruzioni. Prima Claude "intelligentemente" saltava dettagli che riteneva poco importanti o interpretava i requisiti in modo lasco. Ora esegue alla lettera.

Pro: istruzioni multi-step complesse, requisiti di formato stretti, gestione dei casi limite — tutto più affidabile.

Costo: i tuoi prompt esistenti possono rompersi.

Claude "capiva la tua intenzione" e compensava formulazioni imprecise. Ora fa esattamente quello che dici. Se i tuoi prompt hanno espressioni ambigue, istruzioni ridondanti, requisiti contraddittori — 4.6 forse ti copriva, 4.7 no.

Consigli di migrazione:

Testa i prompt esistenti prima in scenari a basso rischio
Concentrati sui punti dove "Claude sembrava indovinare la tua intenzione"
Converti aspettative implicite in istruzioni esplicite

È un aggiornamento "il modello è diventato più intelligente, quindi devi diventare più preciso".

Capacità di coding: numeri e sensazione

Dati ufficiali:

Benchmark	Miglioramento
Benchmark coding 93 task	+13%
Rakuten-SWE-Bench (task di produzione)	tasso di risoluzione 3×
Workflow multi-step	+14%, meno errori di tool

Il 3× su Rakuten-SWE-Bench è la parte più notevole — sono task reali di ambiente di produzione, non benchmark sintetici. +14% sui workflow multi-step più la riduzione degli errori di tool significa che le catene lunghe di task hanno fatto un salto di qualità in affidabilità.

Uniamo le modifiche di Claude Code: il livello di sforzo predefinito sale da high al nuovo xhigh (tra high e max), quindi il modello spende più token di reasoning sui task complessi. Il nuovo comando /ultrareview offre sessioni dedicate di revisione del codice, gli utenti Pro e Max hanno 3 gratuite al mese.

Modifiche al tokenizer: stesso prezzo, più token

4.7 ha aggiornato il tokenizer. Lo stesso testo di input ora mappa a circa 1.0–1.35× il numero di token, a seconda del tipo di contenuto.

Il prezzo non è cambiato, ma lo stesso input consuma più token. Il costo reale può salire dello 0–35%.

Se hai applicazioni sensibili al budget di token, fai un confronto di conteggio su dati reali prima dell'aggiornamento. Soprattutto negli scenari con documenti lunghi, un 35% non è un errore di arrotondamento.

Ragionamento su documenti e scenari legali

Errori di ragionamento su documenti -21%. Accuratezza BigLaw Bench (benchmark legale) al 90.9%.

Gli scenari legali sono sempre stati il punto debole degli LLM — non perché i modelli siano "stupidi", ma perché il testo legale richiede una precisione estrema. La differenza tra "o" ed "e" può ribaltare una conclusione. Un 21% di errori in meno è progresso sostanziale.

Combinato con il miglioramento di vision, la revisione contratti diventa un workflow molto più realistico: scansione diretta in ingresso → estrazione clausole → analisi rischi, con affidabilità in rialzo lungo tutta la pipeline.

Sicurezza e limiti: trade-off deliberati

Profilo di sicurezza equivalente a 4.6: tasso di inganno basso, adulazione bassa, migliore resistenza al prompt injection.

Ma due limiti intenzionali:

Capacità cybersecurity deliberatamente ridotte: rispetto a Mythos Preview, 4.7 ha attivamente abbassato le capacità cyber. Richieste ad alto rischio vengono rilevate e bloccate automaticamente. I ricercatori di sicurezza possono candidarsi al Cyber Verification Program per un accesso legittimo.
Riduzione dei danni per sostanze controllate: un punto debole ufficialmente riconosciuto — il modello non è ottimale nel fornire informazioni di riduzione del danno relative a sostanze controllate.

La formulazione ufficiale è "largely well-aligned and trustworthy, though not fully ideal", sottolineando che Mythos Preview resta il modello meglio allineato. 4.7 ha fatto un trade-off — dare priorità alla capacità pratica, mantenere l'allineamento senza sfondare.

Rapporto con Mythos Preview

Anthropic dice esplicitamente che Opus 4.7 è meno complessivamente capace di Mythos Preview, ma supera Opus 4.6 su diversi benchmark pratici: task da ufficio, vision, ragionamento su documenti, contesto lungo, biologia, coding, coerenza a lungo raggio.

Questo fa intuire la strategia di prodotto di Anthropic: la linea Mythos spinge la frontiera (più capace ma probabilmente più costosa o limitata), la linea Opus è il cavallo di fatica (abbastanza forte, stabile, prezzo ragionevole). Per la maggior parte degli utenti, 4.7 ha più valore pratico di Mythos Preview.

Matrice decisionale per l'aggiornamento

La tua situazione	Raccomandazione
Workflow con forte componente vision (diagrammi, screenshot, scansioni)	Aggiorna subito, il salto è enorme
Catene di task lunghe / workflow multi-step	Aggiorna, affidabilità e uso tool migliorati
Utente intensivo di Claude Code	Aggiorna, xhigh di default + /ultrareview
Analisi di documenti / legale	Aggiorna, ragionamento e precisione nettamente migliori
App ad alto throughput sensibili al budget di token	Prima testa, modifica del tokenizer può alzare i costi
Sistemi in produzione con molti prompt esistenti	Testa prima di aggiornare, il cambio nel seguire istruzioni può richiedere tuning
Necessità legate alla cybersecurity	Non aggiornare o fai domanda, capacità deliberatamente ridotte

In una riga

Opus 4.7 non è un aggiornamento "più grande, più costoso". È un aggiornamento "stesso prezzo, punti capacità ridistribuiti". Vision e seguire istruzioni sono i vincitori principali. La modifica del tokenizer è il costo nascosto più grande. Fai girare la tua test suite di prompt prima di aggiornare — e se non ne hai una, ora è un buon momento per costruirla.