Opus 4.7 im Detail: Was aktualisieren, was abwarten, worauf achten

Anthropic hat heute Claude Opus 4.7 veröffentlicht. Preise unverändert (Input $5/M, Output $25/M), API-Identifier claude-opus-4-7, überall verfügbar — Claude-Produkte, API, Bedrock, Vertex AI, Microsoft Foundry.

Sieht aus wie ein „kostenloses Upgrade". Aber bei näherem Hinsehen gibt es mehrere Änderungen, die deine Arbeitsweise direkt beeinflussen. Das ist nicht nur ein Tausch der Model-ID.

Vision: Von „sieht etwas" zu „wirklich brauchbar"

Die Vision von Opus 4.6 lag in der Kategorie „technisch vorhanden, aber unzuverlässig" — 54.5% visuelle Genauigkeit ist praktisch Münzwurf. 4.7 springt auf 98.5%, und die Auflösungsobergrenze steigt auf 2576px auf der langen Kante (~3.75 Megapixel), dreimal so viel wie vorher.

Das ist nicht „ein bisschen besser". Das ist der Sprung vom Spielzeug zum Werkzeug.

Konkreter Einfluss:

Technische Diagramme: Architektur-, Flow- und ER-Diagramme lassen sich direkt einspeisen, ohne manuelle Transkription
Chemische Strukturen: Molekül-Diagramme aus Papers sind direkt lesbar
Screenshots: Erkennung von UI- und Fehler-Screenshots wird deutlich zuverlässiger
Gescannte Dokumente: OCR auf Verträgen, Rechnungen, gescannten PDFs hat jetzt eine praktische Basis

Wenn du die Vision-Schwäche bisher umgangen hast (Bilder erst manuell in Text umwandeln), ist es Zeit, den Workflow neu zu bewerten.

Anweisungsbefolgung: Die gute Nachricht ist auch die schlechte

4.7 hat die wörtliche Anweisungsbefolgung deutlich verbessert. Früher hat Claude „clever" Details übersprungen, die es für unwichtig hielt, oder Anforderungen locker interpretiert. Jetzt führt es buchstäblich aus.

Vorteil: Komplexe mehrstufige Anweisungen, strenge Formatvorgaben, Randfall-Handling — alles zuverlässiger.

Preis: Deine existierenden Prompts können brechen.

Claude hat früher „deine Absicht verstanden" und ungenaue Formulierungen abgefangen. Jetzt macht es genau, was du sagst. Wenn deine Prompts vage Formulierungen, redundante Anweisungen oder widersprüchliche Anforderungen enthalten — 4.6 hat das vielleicht kaschiert, 4.7 nicht.

Migrations-Tipps:

Teste bestehende Prompts zuerst in risikoarmen Szenarien
Konzentriere dich auf Stellen, wo „Claude früher deine Absicht zu raten schien"
Wandle implizite Erwartungen in explizite Anweisungen um

Das ist ein „Modell wurde schlauer, also musst du präziser werden"-Upgrade.

Coding-Fähigkeit: Zahlen und Gefühl

Offizielle Daten:

Benchmark	Verbesserung
93-Task-Coding-Benchmark	+13%
Rakuten-SWE-Bench (Produktion)	3x Lösungsrate
Mehrstufige Workflows	+14%, weniger Tool-Fehler

Die 3x auf Rakuten-SWE-Bench ist die eigentliche Schlagzeile — das sind echte Produktionsaufgaben, kein synthetischer Benchmark. +14% bei mehrstufigen Workflows zusammen mit weniger Tool-Fehlern bedeutet, dass lange Task-Ketten eine Stufe an Zuverlässigkeit gewonnen haben.

Kombiniert mit Claude-Code-Änderungen: Standard-Effort-Level steigt von high auf den neuen xhigh (zwischen high und max), also investiert das Modell mehr Reasoning-Tokens in komplexe Aufgaben. Der neue Befehl /ultrareview bietet dedizierte Code-Review-Sessions, Pro- und Max-Nutzer bekommen 3 gratis pro Monat.

Tokenizer-Änderung: Gleicher Preis, mehr Tokens

4.7 hat den Tokenizer aktualisiert. Der gleiche Input-Text wird jetzt auf etwa das 1.0–1.35-fache an Tokens abgebildet, abhängig vom Content-Typ.

Der Preis ist gleich geblieben, aber derselbe Input verbraucht mehr Tokens. Die tatsächlichen Kosten können um 0–35% steigen.

Wenn du Token-budget-sensitive Anwendungen hast, mach vor dem Upgrade einen Token-Count-Vergleich mit echten Daten. Besonders bei Workflows mit langen Dokumenten ist 35% kein Rundungsfehler.

Dokument-Reasoning und juristische Szenarien

Dokument-Reasoning-Fehler minus 21%, Genauigkeit im BigLaw Bench (Juristik-Benchmark) 90.9%.

Juristische Szenarien waren schon immer die Achillesferse von LLMs — nicht weil die Modelle „dumm" sind, sondern weil juristischer Text extreme Präzision verlangt. Der Unterschied zwischen „oder" und „und" kann eine Schlussfolgerung kippen. 21% weniger Fehler ist substanzieller Fortschritt.

Kombiniert mit dem Vision-Upgrade wird Vertragsprüfung zu einem deutlich praktikableren Workflow: Scan direkt rein → Klausel-Extraktion → Risiko-Analyse, Zuverlässigkeit über die gesamte Pipeline gestiegen.

Sicherheit und Limits: Bewusste Trade-offs

Sicherheitsprofil vergleichbar mit 4.6: geringe Täuschungsrate, geringe Schmeichelei, verbesserte Resistenz gegen Prompt Injection.

Aber zwei absichtliche Limits:

Cybersecurity-Fähigkeiten bewusst reduziert: Im Vergleich zu Mythos Preview hat 4.7 Cyber-Fähigkeiten aktiv heruntergefahren. Hochrisiko-Anfragen werden automatisch erkannt und blockiert. Sicherheitsforscher können sich beim Cyber Verification Program für legitimen Zugang bewerben.
Harm Reduction bei kontrollierten Substanzen: ein offiziell anerkannter Schwachpunkt — das Modell ist nicht optimal dabei, Harm-Reduction-Informationen zu kontrollierten Substanzen zu liefern.

Die offizielle Formulierung lautet „largely well-aligned and trustworthy, though not fully ideal" und weist darauf hin, dass Mythos Preview weiterhin das am besten ausgerichtete Modell bleibt. 4.7 hat einen Trade-off gemacht — praktische Fähigkeit priorisieren, Alignment halten ohne Durchbruch.

Verhältnis zu Mythos Preview

Anthropic sagt explizit, dass Opus 4.7 weniger breit fähig ist als Mythos Preview, aber Opus 4.6 in mehreren praktischen Benchmarks übertrifft: Büroaufgaben, Vision, Dokument-Reasoning, Long Context, Biologie, Coding, Langzeit-Kohärenz.

Das deutet auf Anthropics Produktstrategie hin: Die Mythos-Linie pushet die Frontier (breiter fähig, aber möglicherweise teurer oder restriktiver), die Opus-Linie ist das Arbeitspferd (stark genug, stabil, fair bepreist). Für die meisten Nutzer hat 4.7 mehr praktischen Wert als Mythos Preview.

Upgrade-Entscheidungsmatrix

Deine Situation	Empfehlung
Vision-lastige Workflows (Diagramme, Screenshots, Scans)	Sofort upgraden, der Sprung ist riesig
Lange Task-Ketten / mehrstufige Workflows	Upgraden, Zuverlässigkeit und Tool-Nutzung verbessert
Heavy Claude Code User	Upgraden, xhigh als Default + /ultrareview
Dokumentenanalyse / Jura	Upgraden, Reasoning und Präzision deutlich besser
Token-budget-sensitive High-Throughput-Apps	Erst testen, Tokenizer-Änderung kann Kosten erhöhen
Produktionssysteme mit vielen bestehenden Prompts	Vor Upgrade testen, Änderung bei Anweisungsbefolgung kann Prompt-Tuning erfordern
Cybersecurity-nahe Anforderungen	Nicht upgraden oder bewerben, Fähigkeiten bewusst reduziert

In einem Satz

Opus 4.7 ist kein „größer, teurer"-Upgrade. Es ist ein „gleicher Preis, umverteilte Capability-Points"-Upgrade. Vision und Anweisungsbefolgung sind die größten Gewinner. Die Tokenizer-Änderung ist der größte versteckte Kostenpunkt. Lass deine Prompt-Testsuite vor dem Upgrade laufen — und falls du keine hast, ist jetzt ein guter Zeitpunkt, eine aufzubauen.