Opus 4.7 szczegółowo: co warto zaktualizować, na co poczekać, czego się wystrzegać

Anthropic wydał dziś Claude Opus 4.7. Ceny bez zmian (wejście $5/M, wyjście $25/M), identyfikator API claude-opus-4-7, dostępny wszędzie — produkty Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Wygląda na „darmowy upgrade". Ale kiedy się wgłębić, jest kilka zmian, które bezpośrednio wpływają na sposób, w jaki pracujesz. To nie jest tylko zamiana ID modelu.

Vision: od „widzi" do „faktycznie użyteczne"

Vision w Opus 4.6 mieściło się w kategorii „technicznie obecne, ale mało wiarygodne" — 54.5% dokładności wizualnej to praktycznie rzut monetą. 4.7 skacze do 98.5%, a limit rozdzielczości rośnie do 2576px na dłuższym boku (~3.75 megapiksela), 3× więcej niż wcześniej.

To nie jest „trochę lepiej". To przejście od zabawki do narzędzia.

Konkretny wpływ:

Diagramy techniczne: diagramy architektury, flow, ER można wrzucać bezpośrednio bez ręcznej transkrypcji
Struktury chemiczne: diagramy molekularne z publikacji czytają się bezpośrednio
Zrzuty ekranu: wiarygodność rozpoznawania zrzutów UI i błędów znacznie wzrosła
Zeskanowane dokumenty: OCR na umowach, fakturach i zeskanowanych PDF-ach ma teraz praktyczną podstawę

Jeśli obchodziłeś słabe vision przez ręczną konwersję obrazów na tekst, pora przemyśleć workflow.

Podążanie za instrukcjami: dobra wiadomość to też zła wiadomość

4.7 znacząco poprawił dosłowne podążanie za instrukcjami. Wcześniej Claude „sprytnie" pomijał detale, które uznał za mało ważne, lub interpretował wymagania luźno. Teraz wykonuje dosłownie.

Plus: skomplikowane wieloetapowe instrukcje, surowe wymagania formatu, obsługa przypadków brzegowych — wszystko bardziej niezawodne.

Koszt: twoje istniejące prompty mogą się zepsuć.

Claude wcześniej „rozumiał twoje intencje" i kompensował niedokładne sformułowania. Teraz robi dokładnie to, co powiesz. Jeśli w promptach masz niejasne sformułowania, nadmiarowe instrukcje, sprzeczne wymagania — 4.6 mógł to zakryć, 4.7 nie zakryje.

Wskazówki migracji:

Przetestuj najpierw istniejące prompty w scenariuszach niskiego ryzyka
Skup się na miejscach, gdzie „Claude wcześniej jakby zgadywał twoje intencje"
Zmień niejawne oczekiwania w jawne instrukcje

To upgrade w stylu „model zrobił się mądrzejszy, więc ty musisz być bardziej precyzyjny".

Zdolności kodowania: liczby i odczucia

Dane oficjalne:

Benchmark	Poprawa
Benchmark kodowania 93 zadań	+13%
Rakuten-SWE-Bench (zadania produkcyjne)	wskaźnik rozwiązania ×3
Workflow wieloetapowe	+14%, mniej błędów narzędzi

×3 na Rakuten-SWE-Bench to nagłówek — to prawdziwe zadania ze środowiska produkcyjnego, nie syntetyczny benchmark. +14% na wieloetapowych workflow plus mniej błędów narzędzi oznacza, że długie łańcuchy zadań podskoczyły o poziom w niezawodności.

Razem ze zmianami Claude Code: domyślny poziom wysiłku wzrósł z high do nowego xhigh (między high a max), więc model przeznacza więcej tokenów reasoning na skomplikowane zadania. Nowe polecenie /ultrareview daje dedykowane sesje przeglądu kodu, użytkownicy Pro i Max dostają 3 darmowe miesięcznie.

Zmiany tokenizera: ta sama cena, więcej tokenów

4.7 zaktualizował tokenizer. Ten sam tekst wejściowy mapuje teraz na około 1.0–1.35× liczbę tokenów, w zależności od typu zawartości.

Cena się nie zmieniła, ale to samo wejście zużywa więcej tokenów. Realny koszt może wzrosnąć o 0–35%.

Jeśli masz aplikacje wrażliwe na budżet tokenów, zrób porównanie liczby tokenów na prawdziwych danych przed upgrade'em. Zwłaszcza w scenariuszach z długimi dokumentami, 35% to nie błąd zaokrąglenia.

Wnioskowanie na dokumentach i scenariusze prawne

Błędy wnioskowania na dokumentach -21%. Dokładność BigLaw Bench (benchmark prawniczy) 90.9%.

Scenariusze prawne od zawsze były słabą stroną LLM — nie dlatego, że modele są „głupie", ale dlatego, że tekst prawniczy wymaga ekstremalnej precyzji. Różnica między „lub" a „i" może odwrócić wniosek. 21% mniej błędów to realny postęp.

W połączeniu z poprawą vision, przegląd umów staje się znacznie bardziej realnym workflow: skan bezpośrednio na wejściu → ekstrakcja klauzul → analiza ryzyka, wiarygodność wzrosła w całym łańcuchu.

Bezpieczeństwo i ograniczenia: świadome kompromisy

Profil bezpieczeństwa zbliżony do 4.6: niski wskaźnik oszustwa, niska pochlebczość, lepsza odporność na prompt injection.

Ale dwa celowe ograniczenia:

Zdolności cyberbezpieczeństwa celowo zmniejszone: w porównaniu z Mythos Preview, 4.7 aktywnie obniżył zdolności cyber. Żądania wysokiego ryzyka są automatycznie wykrywane i blokowane. Badacze bezpieczeństwa mogą aplikować do Cyber Verification Program o uprawniony dostęp.
Redukcja szkód dla substancji kontrolowanych: oficjalnie uznana słabość — model nie jest optymalny w dostarczaniu informacji o redukcji szkód dotyczących substancji kontrolowanych.

Oficjalne sformułowanie to „largely well-aligned and trustworthy, though not fully ideal", z uwagą, że Mythos Preview pozostaje najlepiej wyrównanym modelem. 4.7 zrobił kompromis — priorytet dla praktycznych zdolności, utrzymanie wyrównania bez przełomu.

Relacja z Mythos Preview

Anthropic otwarcie mówi, że Opus 4.7 jest mniej wszechstronny niż Mythos Preview, ale przewyższa Opus 4.6 w kilku praktycznych benchmarkach: zadania biurowe, vision, wnioskowanie na dokumentach, długi kontekst, biologia, kodowanie, spójność długoterminowa.

To sugeruje strategię produktową Anthropic: linia Mythos pcha granicę (szersze zdolności, ale pewnie droższe lub z ograniczeniami), linia Opus to koń roboczy (wystarczająco mocny, stabilny, rozsądna cena). Dla większości użytkowników 4.7 ma większą praktyczną wartość niż Mythos Preview.

Matryca decyzji o upgrade

Twoja sytuacja	Rekomendacja
Workflow oparte na vision (diagramy, zrzuty ekranu, skany)	Upgrade teraz, skok jest ogromny
Długie łańcuchy zadań / workflow wieloetapowe	Upgrade, niezawodność i użycie narzędzi poprawione
Aktywny użytkownik Claude Code	Upgrade, xhigh domyślnie + /ultrareview
Analiza dokumentów / prawo	Upgrade, wnioskowanie i precyzja wyraźnie lepsze
Aplikacje o wysokim throughputie wrażliwe na budżet tokenów	Najpierw testuj, zmiana tokenizera może podnieść koszty
Systemy produkcyjne z mnóstwem istniejących promptów	Testuj przed upgrade'em, zmiana podążania za instrukcjami może wymagać strojenia
Potrzeby cyberbezpieczeństwa	Nie upgrade'uj lub aplikuj, zdolności celowo zmniejszone

W jednej linijce

Opus 4.7 to nie upgrade „większy, droższy". To upgrade „ta sama cena, przerozdzielone punkty zdolności". Vision i podążanie za instrukcjami to najwięksi zwycięzcy. Zmiana tokenizera to największy ukryty koszt. Przepuść swój zestaw testów promptów przed upgrade'em — a jeśli go nie masz, teraz to dobry moment, żeby go zbudować.