Opus 4.7 вийшов: зір з 54% до 98%, але зміна токенізатора може непомітно підняти вартість на 35%
Anthropic випустила Claude Opus 4.7 сьогодні. Ціни без змін (вхід $5/M, вихід $25/M), ідентифікатор API claude-opus-4-7, доступно всюди — продукти Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Виглядає як «безкоштовний апгрейд». Але якщо копнути глибше, є кілька змін, які безпосередньо впливають на те, як ви працюєте. Це не просто заміна ID моделі.
Зір Opus 4.6 був з категорії «технічно є, але ненадійно» — 54.5% візуальної точності, по суті підкидання монети. 4.7 підскакує до 98.5%, а межа роздільної здатності піднімається до 2576px по довгому краю (~3.75 мегапікселя), у 3 рази більше попереднього.
Це не «трохи краще». Це перехід від іграшки до інструмента.
Конкретний вплив:
Якщо ви обходили слабкий зір, конвертуючи зображення в текст вручну, час переглянути воркфлоу.
4.7 суттєво покращив буквальне дотримання інструкцій. Раніше Claude «розумно» пропускав деталі, які вважав неважливими, або трактував вимоги вільно. Тепер виконує буквально.
Плюс: складні багатокрокові інструкції, суворі вимоги до формату, обробка граничних випадків — все надійніше.
Ціна: ваші існуючі промпти можуть зламатися.
Claude раніше «розумів намір» і згладжував неточні формулювання. Тепер робить рівно те, що ви сказали. Якщо у промптах є розпливчасті формулювання, надлишкові інструкції, суперечливі вимоги — 4.6 міг це прикрити, 4.7 не буде.
Поради з міграції:
Це апгрейд «модель стала розумнішою, отже вам треба стати точнішим».
Офіційні дані:
| Бенчмарк | Покращення |
|---|---|
| Кодинг-бенчмарк на 93 задачах | +13% |
| Rakuten-SWE-Bench (production-задачі) | рівень розв'язання ×3 |
| Багатокрокові воркфлоу | +14%, менше помилок інструментів |
×3 на Rakuten-SWE-Bench — головна цифра, це реальні задачі production-середовища, а не синтетичний бенчмарк. +14% на багатокрокових воркфлоу плюс зниження помилок інструментів означають, що довгі ланцюги задач піднялися на щабель вище за надійністю.
Разом зі змінами Claude Code: дефолтний рівень зусиль піднявся з high до нового xhigh (між high і max), тобто модель витрачає більше reasoning-токенів на складні задачі. Нова команда /ultrareview дає виділені сесії для рев'ю коду, користувачі Pro і Max отримують 3 безкоштовні на місяць.
4.7 оновив токенізатор. Той самий вхідний текст тепер відображається приблизно в 1.0–1.35× кількості токенів, залежно від типу контенту.
Ціна не змінилася, але той самий ввід споживає більше токенів. Реальна вартість може зрости на 0–35%.
Якщо маєте додатки, чутливі до бюджету токенів, зробіть порівняння кількості токенів на реальних даних перед апгрейдом. Особливо для сценаріїв обробки довгих документів 35% — не похибка округлення.
Помилки міркувань по документах мінус 21%. Точність на BigLaw Bench (юридичний бенчмарк) 90.9%.
Юридичні сценарії завжди були слабким місцем LLM — не тому що моделі «тупі», а тому що юридичний текст вимагає крайньої точності. Різниця між «або» та «і» може перевернути висновок. Зниження помилок на 21% — істотний прогрес.
У поєднанні з покращенням зору рев'ю контрактів стає набагато більш реальним воркфлоу: скан одразу на вхід → витяг пунктів → аналіз ризиків, надійність зросла по всьому ланцюгу.
Профіль безпеки порівнянний з 4.6: низький рівень обману, низьке підлабузництво, покращена стійкість до prompt injection.
Але два свідомих обмеження:
Кібербезпекові здібності навмисно знижено: порівняно з Mythos Preview, 4.7 активно урізав cyber-здібності. Високоризикові запити автоматично виявляються та блокуються. Дослідники безпеки можуть подати заявку на Cyber Verification Program для легітимного доступу.
Зниження шкоди при контрольованих речовинах: офіційно визнана слабкість — модель неоптимальна в наданні інформації про зниження шкоди щодо контрольованих речовин.
Офіційне формулювання — «largely well-aligned and trustworthy, though not fully ideal», із зазначенням, що Mythos Preview залишається найкращою за вирівнюванням моделлю. 4.7 зробив компроміс — пріоритет практичній здібності, збереження вирівнювання без прориву.
Anthropic прямо каже, що Opus 4.7 менш універсальний, ніж Mythos Preview, але перевершує Opus 4.6 за кількома практичними бенчмарками: офісні задачі, зір, міркування по документах, довгий контекст, біологія, кодинг, довгострокова зв'язність.
Це натякає на продуктову стратегію Anthropic: лінія Mythos штовхає фронтир (ширші здібності, але можливо дорожче або з обмеженнями), лінія Opus — робочий кінь (достатньо сильний, стабільний, розумна ціна). Для більшості користувачів 4.7 має більше практичної цінності, ніж Mythos Preview.
| Ваша ситуація | Рекомендація |
|---|---|
| Воркфлоу з активним використанням зору (діаграми, скріншоти, скани) | Апгрейд негайно, стрибок величезний |
| Довгі ланцюги задач / багатокрокові воркфлоу | Апгрейд, надійність і використання інструментів покращились |
| Активний користувач Claude Code | Апгрейд, xhigh за замовчуванням + /ultrareview |
| Аналіз документів / юридичні задачі | Апгрейд, міркування й точність помітно зросли |
| Додатки з високим throughput, чутливі до бюджету токенів | Спочатку тест, зміна токенізатора може підвищити вартість |
| Production-системи з великою кількістю існуючих промптів | Тест до апгрейду, зміна дотримання інструкцій може вимагати налаштування |
| Потреби в кібербезпеці | Не апгрейдити або подати заявку, здібності навмисно знижено |
Opus 4.7 — це не апгрейд «більше і дорожче». Це апгрейд «та сама ціна, перерозподілені очки здібностей». Зір і дотримання інструкцій — головні переможці. Зміна токенізатора — найбільша прихована вартість. Прожене свій тест-сьют промптів до апгрейду — а якщо його немає, зараз слушний час його побудувати.