Opus 4.7 en profondeur : ce qu'il faut mettre à jour, ce qu'il faut attendre, ce qu'il faut surveiller

Anthropic a lancé Claude Opus 4.7 aujourd'hui. Tarification inchangée (entrée $5/M, sortie $25/M), identifiant API claude-opus-4-7, disponible partout — produits Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Sur le papier, une « mise à jour gratuite ». Mais en regardant de près, plusieurs changements affectent directement votre façon de travailler. Ce n'est pas juste un changement d'ID de modèle.

Vision : de « fonctionne » à « vraiment utilisable »

La vision d'Opus 4.6 était dans la catégorie « techniquement présente mais peu fiable » — 54.5% de précision visuelle, autant jouer à pile ou face. Opus 4.7 saute à 98.5%, et la limite de résolution monte à 2576px sur le côté long (~3.75 mégapixels), 3 fois plus qu'avant.

Ce n'est pas « un peu mieux ». C'est passer du jouet à l'outil.

Impact concret :

Diagrammes techniques : diagrammes d'architecture, de flux, ER peuvent être injectés directement sans transcription manuelle
Structures chimiques : les schémas moléculaires des articles scientifiques sont lisibles directement
Captures d'écran : la fiabilité de reconnaissance des captures UI et d'erreurs s'améliore sensiblement
Documents scannés : l'OCR sur contrats, factures et PDF scannés a désormais une base exploitable

Si vous contourniez la faiblesse de vision en convertissant d'abord les images en texte, c'est le moment de réévaluer votre workflow.

Suivi des instructions : la bonne nouvelle est aussi la mauvaise

Opus 4.7 a nettement amélioré le suivi littéral des instructions. Avant, Claude « intelligemment » sautait les détails qu'il jugeait peu importants ou interprétait les consignes de manière lâche. Maintenant, il exécute à la lettre.

Avantage : les instructions complexes multi-étapes, les formats stricts, la gestion des cas limites — tout est plus fiable.

Contrepartie : vos prompts existants risquent de casser.

Claude « comprenait votre intention » et compensait les formulations imprécises. Maintenant, il fait exactement ce que vous dites. Si vos prompts contiennent des formulations vagues, des instructions redondantes ou des exigences contradictoires — 4.6 a peut-être couvert, 4.7 non.

Conseils de migration :

Testez d'abord les prompts existants dans des scénarios à faible risque
Regardez en particulier les endroits où « Claude semblait deviner votre intention »
Transformez les attentes implicites en instructions explicites

C'est une mise à jour « le modèle est devenu plus intelligent, donc vous devez devenir plus précis ».

Capacité de code : chiffres et ressenti

Données officielles :

Benchmark	Amélioration
Benchmark coding 93 tâches	+13%
Rakuten-SWE-Bench (tâches de production)	taux de résolution x3
Workflows multi-étapes	+14%, moins d'erreurs d'outils

Le x3 sur Rakuten-SWE-Bench est le chiffre à retenir — ce sont de vraies tâches de production, pas un benchmark synthétique. Le +14% sur les workflows multi-étapes combiné à la baisse des erreurs d'outils signifie que les longues chaînes de tâches ont monté d'un cran en fiabilité.

Avec les changements Claude Code : le niveau d'effort par défaut passe de high au nouveau xhigh (entre high et max), donc le modèle investit plus de tokens de raisonnement sur les tâches complexes. La nouvelle commande /ultrareview offre des sessions dédiées de revue de code, et les utilisateurs Pro et Max ont droit à 3 gratuites par mois.

Changements du tokenizer : même prix, plus de tokens

4.7 a mis à jour le tokenizer. Le même texte en entrée se traduit désormais par environ 1.0–1.35x le nombre de tokens, selon le type de contenu.

Le prix n'a pas changé, mais la même entrée consomme plus de tokens. Le coût réel peut monter de 0 à 35%.

Si vous avez des applications sensibles au budget tokens, faites une comparaison de comptage sur des données réelles avant la mise à jour. Surtout pour les workflows de documents longs, 35% n'est pas une erreur d'arrondi.

Raisonnement sur documents et scénarios juridiques

Erreurs de raisonnement sur documents en baisse de 21%. Précision BigLaw Bench (benchmark juridique) à 90.9%.

Les scénarios juridiques ont toujours été le point faible des LLM — pas parce que les modèles sont « bêtes », mais parce que le texte juridique exige une précision extrême. La différence entre « ou » et « et » peut inverser une conclusion. 21% d'erreurs en moins, c'est un progrès réel.

Combiné à l'amélioration vision, la revue de contrats devient un workflow bien plus viable : document scanné en entrée directe → extraction des clauses → analyse des risques, fiabilité en hausse sur toute la chaîne.

Sécurité et limites : des compromis délibérés

Profil de sécurité équivalent à 4.6 : faible taux de tromperie, faible flagornerie, résistance améliorée aux prompt injections.

Mais deux limites intentionnelles :

Capacités de cybersécurité délibérément réduites : par rapport à Mythos Preview, 4.7 a activement diminué les capacités cyber. Les requêtes à haut risque sont automatiquement détectées et bloquées. Les chercheurs en sécurité peuvent postuler au Cyber Verification Program pour un accès légitime.
Réduction des risques liés aux substances contrôlées : un point faible officiellement reconnu — le modèle n'est pas optimal pour fournir des informations de réduction des risques concernant les substances contrôlées.

La formulation officielle est « largely well-aligned and trustworthy, though not fully ideal », en précisant que Mythos Preview reste le modèle le mieux aligné. 4.7 a fait un compromis — prioriser la capacité pratique, maintenir l'alignement sans percée.

Relation avec Mythos Preview

Anthropic dit explicitement qu'Opus 4.7 est moins globalement capable que Mythos Preview, mais dépasse Opus 4.6 sur plusieurs benchmarks pratiques : tâches bureautiques, vision, raisonnement sur documents, contexte long, biologie, coding, cohérence long terme.

Cela pointe vers la stratégie produit d'Anthropic : la ligne Mythos pousse la frontière (plus capable mais possiblement plus chère ou restreinte), la ligne Opus est le cheval de trait (assez puissante, stable, à prix raisonnable). Pour la plupart des utilisateurs, 4.7 a plus de valeur pratique que Mythos Preview.

Matrice de décision pour la mise à jour

Votre situation	Recommandation
Workflow à forte composante vision (diagrammes, captures, scans)	Mettez à jour maintenant, le gain est énorme
Chaînes de tâches longues / workflows multi-étapes	Mettez à jour, fiabilité et utilisation des outils améliorées
Gros utilisateur de Claude Code	Mettez à jour, xhigh par défaut + /ultrareview
Analyse de documents / juridique	Mettez à jour, raisonnement et précision clairement en hausse
Applications haut débit sensibles au budget tokens	Testez d'abord, changement de tokenizer peut augmenter les coûts
Systèmes en production avec beaucoup de prompts existants	Testez avant de mettre à jour, changement de suivi des instructions peut nécessiter un ajustement
Besoins liés à la cybersécurité	Ne pas mettre à jour ou postuler, capacités volontairement réduites

En une phrase

Opus 4.7 n'est pas une mise à jour « plus gros, plus cher ». C'est une mise à jour « même prix, points de capacité redistribués ». Vision et suivi des instructions sont les grands gagnants. Le changement de tokenizer est le coût caché le plus important. Lancez votre suite de tests de prompts avant la mise à jour — et si vous n'en avez pas, c'est le bon moment pour en construire une.