Opus 4.7 jest tu: vision z 54% na 98%, ale zmiana tokenizera może po cichu podnieść koszty o 35%
Anthropic wydał dziś Claude Opus 4.7. Ceny bez zmian (wejście $5/M, wyjście $25/M), identyfikator API claude-opus-4-7, dostępny wszędzie — produkty Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Wygląda na „darmowy upgrade". Ale kiedy się wgłębić, jest kilka zmian, które bezpośrednio wpływają na sposób, w jaki pracujesz. To nie jest tylko zamiana ID modelu.
Vision w Opus 4.6 mieściło się w kategorii „technicznie obecne, ale mało wiarygodne" — 54.5% dokładności wizualnej to praktycznie rzut monetą. 4.7 skacze do 98.5%, a limit rozdzielczości rośnie do 2576px na dłuższym boku (~3.75 megapiksela), 3× więcej niż wcześniej.
To nie jest „trochę lepiej". To przejście od zabawki do narzędzia.
Konkretny wpływ:
Jeśli obchodziłeś słabe vision przez ręczną konwersję obrazów na tekst, pora przemyśleć workflow.
4.7 znacząco poprawił dosłowne podążanie za instrukcjami. Wcześniej Claude „sprytnie" pomijał detale, które uznał za mało ważne, lub interpretował wymagania luźno. Teraz wykonuje dosłownie.
Plus: skomplikowane wieloetapowe instrukcje, surowe wymagania formatu, obsługa przypadków brzegowych — wszystko bardziej niezawodne.
Koszt: twoje istniejące prompty mogą się zepsuć.
Claude wcześniej „rozumiał twoje intencje" i kompensował niedokładne sformułowania. Teraz robi dokładnie to, co powiesz. Jeśli w promptach masz niejasne sformułowania, nadmiarowe instrukcje, sprzeczne wymagania — 4.6 mógł to zakryć, 4.7 nie zakryje.
Wskazówki migracji:
To upgrade w stylu „model zrobił się mądrzejszy, więc ty musisz być bardziej precyzyjny".
Dane oficjalne:
| Benchmark | Poprawa |
|---|---|
| Benchmark kodowania 93 zadań | +13% |
| Rakuten-SWE-Bench (zadania produkcyjne) | wskaźnik rozwiązania ×3 |
| Workflow wieloetapowe | +14%, mniej błędów narzędzi |
×3 na Rakuten-SWE-Bench to nagłówek — to prawdziwe zadania ze środowiska produkcyjnego, nie syntetyczny benchmark. +14% na wieloetapowych workflow plus mniej błędów narzędzi oznacza, że długie łańcuchy zadań podskoczyły o poziom w niezawodności.
Razem ze zmianami Claude Code: domyślny poziom wysiłku wzrósł z high do nowego xhigh (między high a max), więc model przeznacza więcej tokenów reasoning na skomplikowane zadania. Nowe polecenie /ultrareview daje dedykowane sesje przeglądu kodu, użytkownicy Pro i Max dostają 3 darmowe miesięcznie.
4.7 zaktualizował tokenizer. Ten sam tekst wejściowy mapuje teraz na około 1.0–1.35× liczbę tokenów, w zależności od typu zawartości.
Cena się nie zmieniła, ale to samo wejście zużywa więcej tokenów. Realny koszt może wzrosnąć o 0–35%.
Jeśli masz aplikacje wrażliwe na budżet tokenów, zrób porównanie liczby tokenów na prawdziwych danych przed upgrade'em. Zwłaszcza w scenariuszach z długimi dokumentami, 35% to nie błąd zaokrąglenia.
Błędy wnioskowania na dokumentach -21%. Dokładność BigLaw Bench (benchmark prawniczy) 90.9%.
Scenariusze prawne od zawsze były słabą stroną LLM — nie dlatego, że modele są „głupie", ale dlatego, że tekst prawniczy wymaga ekstremalnej precyzji. Różnica między „lub" a „i" może odwrócić wniosek. 21% mniej błędów to realny postęp.
W połączeniu z poprawą vision, przegląd umów staje się znacznie bardziej realnym workflow: skan bezpośrednio na wejściu → ekstrakcja klauzul → analiza ryzyka, wiarygodność wzrosła w całym łańcuchu.
Profil bezpieczeństwa zbliżony do 4.6: niski wskaźnik oszustwa, niska pochlebczość, lepsza odporność na prompt injection.
Ale dwa celowe ograniczenia:
Zdolności cyberbezpieczeństwa celowo zmniejszone: w porównaniu z Mythos Preview, 4.7 aktywnie obniżył zdolności cyber. Żądania wysokiego ryzyka są automatycznie wykrywane i blokowane. Badacze bezpieczeństwa mogą aplikować do Cyber Verification Program o uprawniony dostęp.
Redukcja szkód dla substancji kontrolowanych: oficjalnie uznana słabość — model nie jest optymalny w dostarczaniu informacji o redukcji szkód dotyczących substancji kontrolowanych.
Oficjalne sformułowanie to „largely well-aligned and trustworthy, though not fully ideal", z uwagą, że Mythos Preview pozostaje najlepiej wyrównanym modelem. 4.7 zrobił kompromis — priorytet dla praktycznych zdolności, utrzymanie wyrównania bez przełomu.
Anthropic otwarcie mówi, że Opus 4.7 jest mniej wszechstronny niż Mythos Preview, ale przewyższa Opus 4.6 w kilku praktycznych benchmarkach: zadania biurowe, vision, wnioskowanie na dokumentach, długi kontekst, biologia, kodowanie, spójność długoterminowa.
To sugeruje strategię produktową Anthropic: linia Mythos pcha granicę (szersze zdolności, ale pewnie droższe lub z ograniczeniami), linia Opus to koń roboczy (wystarczająco mocny, stabilny, rozsądna cena). Dla większości użytkowników 4.7 ma większą praktyczną wartość niż Mythos Preview.
| Twoja sytuacja | Rekomendacja |
|---|---|
| Workflow oparte na vision (diagramy, zrzuty ekranu, skany) | Upgrade teraz, skok jest ogromny |
| Długie łańcuchy zadań / workflow wieloetapowe | Upgrade, niezawodność i użycie narzędzi poprawione |
| Aktywny użytkownik Claude Code | Upgrade, xhigh domyślnie + /ultrareview |
| Analiza dokumentów / prawo | Upgrade, wnioskowanie i precyzja wyraźnie lepsze |
| Aplikacje o wysokim throughputie wrażliwe na budżet tokenów | Najpierw testuj, zmiana tokenizera może podnieść koszty |
| Systemy produkcyjne z mnóstwem istniejących promptów | Testuj przed upgrade'em, zmiana podążania za instrukcjami może wymagać strojenia |
| Potrzeby cyberbezpieczeństwa | Nie upgrade'uj lub aplikuj, zdolności celowo zmniejszone |
Opus 4.7 to nie upgrade „większy, droższy". To upgrade „ta sama cena, przerozdzielone punkty zdolności". Vision i podążanie za instrukcjami to najwięksi zwycięzcy. Zmiana tokenizera to największy ukryty koszt. Przepuść swój zestaw testów promptów przed upgrade'em — a jeśli go nie masz, teraz to dobry moment, żeby go zbudować.