Opus 4.7 ist da: Vision springt von 54% auf 98%, aber die Tokenizer-Änderung kann Kosten leise um 35% anheben
Anthropic hat heute Claude Opus 4.7 veröffentlicht. Preise unverändert (Input $5/M, Output $25/M), API-Identifier claude-opus-4-7, überall verfügbar — Claude-Produkte, API, Bedrock, Vertex AI, Microsoft Foundry.
Sieht aus wie ein „kostenloses Upgrade". Aber bei näherem Hinsehen gibt es mehrere Änderungen, die deine Arbeitsweise direkt beeinflussen. Das ist nicht nur ein Tausch der Model-ID.
Die Vision von Opus 4.6 lag in der Kategorie „technisch vorhanden, aber unzuverlässig" — 54.5% visuelle Genauigkeit ist praktisch Münzwurf. 4.7 springt auf 98.5%, und die Auflösungsobergrenze steigt auf 2576px auf der langen Kante (~3.75 Megapixel), dreimal so viel wie vorher.
Das ist nicht „ein bisschen besser". Das ist der Sprung vom Spielzeug zum Werkzeug.
Konkreter Einfluss:
Wenn du die Vision-Schwäche bisher umgangen hast (Bilder erst manuell in Text umwandeln), ist es Zeit, den Workflow neu zu bewerten.
4.7 hat die wörtliche Anweisungsbefolgung deutlich verbessert. Früher hat Claude „clever" Details übersprungen, die es für unwichtig hielt, oder Anforderungen locker interpretiert. Jetzt führt es buchstäblich aus.
Vorteil: Komplexe mehrstufige Anweisungen, strenge Formatvorgaben, Randfall-Handling — alles zuverlässiger.
Preis: Deine existierenden Prompts können brechen.
Claude hat früher „deine Absicht verstanden" und ungenaue Formulierungen abgefangen. Jetzt macht es genau, was du sagst. Wenn deine Prompts vage Formulierungen, redundante Anweisungen oder widersprüchliche Anforderungen enthalten — 4.6 hat das vielleicht kaschiert, 4.7 nicht.
Migrations-Tipps:
Das ist ein „Modell wurde schlauer, also musst du präziser werden"-Upgrade.
Offizielle Daten:
| Benchmark | Verbesserung |
|---|---|
| 93-Task-Coding-Benchmark | +13% |
| Rakuten-SWE-Bench (Produktion) | 3x Lösungsrate |
| Mehrstufige Workflows | +14%, weniger Tool-Fehler |
Die 3x auf Rakuten-SWE-Bench ist die eigentliche Schlagzeile — das sind echte Produktionsaufgaben, kein synthetischer Benchmark. +14% bei mehrstufigen Workflows zusammen mit weniger Tool-Fehlern bedeutet, dass lange Task-Ketten eine Stufe an Zuverlässigkeit gewonnen haben.
Kombiniert mit Claude-Code-Änderungen: Standard-Effort-Level steigt von high auf den neuen xhigh (zwischen high und max), also investiert das Modell mehr Reasoning-Tokens in komplexe Aufgaben. Der neue Befehl /ultrareview bietet dedizierte Code-Review-Sessions, Pro- und Max-Nutzer bekommen 3 gratis pro Monat.
4.7 hat den Tokenizer aktualisiert. Der gleiche Input-Text wird jetzt auf etwa das 1.0–1.35-fache an Tokens abgebildet, abhängig vom Content-Typ.
Der Preis ist gleich geblieben, aber derselbe Input verbraucht mehr Tokens. Die tatsächlichen Kosten können um 0–35% steigen.
Wenn du Token-budget-sensitive Anwendungen hast, mach vor dem Upgrade einen Token-Count-Vergleich mit echten Daten. Besonders bei Workflows mit langen Dokumenten ist 35% kein Rundungsfehler.
Dokument-Reasoning-Fehler minus 21%, Genauigkeit im BigLaw Bench (Juristik-Benchmark) 90.9%.
Juristische Szenarien waren schon immer die Achillesferse von LLMs — nicht weil die Modelle „dumm" sind, sondern weil juristischer Text extreme Präzision verlangt. Der Unterschied zwischen „oder" und „und" kann eine Schlussfolgerung kippen. 21% weniger Fehler ist substanzieller Fortschritt.
Kombiniert mit dem Vision-Upgrade wird Vertragsprüfung zu einem deutlich praktikableren Workflow: Scan direkt rein → Klausel-Extraktion → Risiko-Analyse, Zuverlässigkeit über die gesamte Pipeline gestiegen.
Sicherheitsprofil vergleichbar mit 4.6: geringe Täuschungsrate, geringe Schmeichelei, verbesserte Resistenz gegen Prompt Injection.
Aber zwei absichtliche Limits:
Cybersecurity-Fähigkeiten bewusst reduziert: Im Vergleich zu Mythos Preview hat 4.7 Cyber-Fähigkeiten aktiv heruntergefahren. Hochrisiko-Anfragen werden automatisch erkannt und blockiert. Sicherheitsforscher können sich beim Cyber Verification Program für legitimen Zugang bewerben.
Harm Reduction bei kontrollierten Substanzen: ein offiziell anerkannter Schwachpunkt — das Modell ist nicht optimal dabei, Harm-Reduction-Informationen zu kontrollierten Substanzen zu liefern.
Die offizielle Formulierung lautet „largely well-aligned and trustworthy, though not fully ideal" und weist darauf hin, dass Mythos Preview weiterhin das am besten ausgerichtete Modell bleibt. 4.7 hat einen Trade-off gemacht — praktische Fähigkeit priorisieren, Alignment halten ohne Durchbruch.
Anthropic sagt explizit, dass Opus 4.7 weniger breit fähig ist als Mythos Preview, aber Opus 4.6 in mehreren praktischen Benchmarks übertrifft: Büroaufgaben, Vision, Dokument-Reasoning, Long Context, Biologie, Coding, Langzeit-Kohärenz.
Das deutet auf Anthropics Produktstrategie hin: Die Mythos-Linie pushet die Frontier (breiter fähig, aber möglicherweise teurer oder restriktiver), die Opus-Linie ist das Arbeitspferd (stark genug, stabil, fair bepreist). Für die meisten Nutzer hat 4.7 mehr praktischen Wert als Mythos Preview.
| Deine Situation | Empfehlung |
|---|---|
| Vision-lastige Workflows (Diagramme, Screenshots, Scans) | Sofort upgraden, der Sprung ist riesig |
| Lange Task-Ketten / mehrstufige Workflows | Upgraden, Zuverlässigkeit und Tool-Nutzung verbessert |
| Heavy Claude Code User | Upgraden, xhigh als Default + /ultrareview |
| Dokumentenanalyse / Jura | Upgraden, Reasoning und Präzision deutlich besser |
| Token-budget-sensitive High-Throughput-Apps | Erst testen, Tokenizer-Änderung kann Kosten erhöhen |
| Produktionssysteme mit vielen bestehenden Prompts | Vor Upgrade testen, Änderung bei Anweisungsbefolgung kann Prompt-Tuning erfordern |
| Cybersecurity-nahe Anforderungen | Nicht upgraden oder bewerben, Fähigkeiten bewusst reduziert |
Opus 4.7 ist kein „größer, teurer"-Upgrade. Es ist ein „gleicher Preis, umverteilte Capability-Points"-Upgrade. Vision und Anweisungsbefolgung sind die größten Gewinner. Die Tokenizer-Änderung ist der größte versteckte Kostenpunkt. Lass deine Prompt-Testsuite vor dem Upgrade laufen — und falls du keine hast, ist jetzt ein guter Zeitpunkt, eine aufzubauen.