Free

Opus 4.7 докладно: що оновлювати, що почекати, чого остерігатися

Opus 4.7 вийшов: зір з 54% до 98%, але зміна токенізатора може непомітно підняти вартість на 35%


Anthropic випустила Claude Opus 4.7 сьогодні. Ціни без змін (вхід $5/M, вихід $25/M), ідентифікатор API claude-opus-4-7, доступно всюди — продукти Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Виглядає як «безкоштовний апгрейд». Але якщо копнути глибше, є кілька змін, які безпосередньо впливають на те, як ви працюєте. Це не просто заміна ID моделі.


Зір: від «бачить» до «реально працює»

Зір Opus 4.6 був з категорії «технічно є, але ненадійно» — 54.5% візуальної точності, по суті підкидання монети. 4.7 підскакує до 98.5%, а межа роздільної здатності піднімається до 2576px по довгому краю (~3.75 мегапікселя), у 3 рази більше попереднього.

Це не «трохи краще». Це перехід від іграшки до інструмента.

Конкретний вплив:

  • Технічні діаграми: діаграми архітектури, потоків, ER можна одразу згодовувати без ручної транскрипції
  • Хімічні структури: молекулярні діаграми зі статей читаються напряму
  • Скріншоти: надійність розпізнавання скріншотів UI та помилок помітно зросла
  • Скани документів: OCR по контрактах, рахунках і відсканованих PDF нарешті має практичну базу

Якщо ви обходили слабкий зір, конвертуючи зображення в текст вручну, час переглянути воркфлоу.


Дотримання інструкцій: хороша новина — вона ж погана

4.7 суттєво покращив буквальне дотримання інструкцій. Раніше Claude «розумно» пропускав деталі, які вважав неважливими, або трактував вимоги вільно. Тепер виконує буквально.

Плюс: складні багатокрокові інструкції, суворі вимоги до формату, обробка граничних випадків — все надійніше.

Ціна: ваші існуючі промпти можуть зламатися.

Claude раніше «розумів намір» і згладжував неточні формулювання. Тепер робить рівно те, що ви сказали. Якщо у промптах є розпливчасті формулювання, надлишкові інструкції, суперечливі вимоги — 4.6 міг це прикрити, 4.7 не буде.

Поради з міграції:

  1. Спочатку протестуйте існуючі промпти в сценаріях з низьким ризиком
  2. Зосередьтеся на місцях, де «Claude раніше ніби вгадував ваш намір»
  3. Переведіть неявні очікування в явні інструкції

Це апгрейд «модель стала розумнішою, отже вам треба стати точнішим».


Здібності до кодингу: цифри й відчуття

Офіційні дані:

Бенчмарк Покращення
Кодинг-бенчмарк на 93 задачах +13%
Rakuten-SWE-Bench (production-задачі) рівень розв'язання ×3
Багатокрокові воркфлоу +14%, менше помилок інструментів

×3 на Rakuten-SWE-Bench — головна цифра, це реальні задачі production-середовища, а не синтетичний бенчмарк. +14% на багатокрокових воркфлоу плюс зниження помилок інструментів означають, що довгі ланцюги задач піднялися на щабель вище за надійністю.

Разом зі змінами Claude Code: дефолтний рівень зусиль піднявся з high до нового xhigh (між high і max), тобто модель витрачає більше reasoning-токенів на складні задачі. Нова команда /ultrareview дає виділені сесії для рев'ю коду, користувачі Pro і Max отримують 3 безкоштовні на місяць.


Зміни токенізатора: ціна та сама, токенів більше

4.7 оновив токенізатор. Той самий вхідний текст тепер відображається приблизно в 1.0–1.35× кількості токенів, залежно від типу контенту.

Ціна не змінилася, але той самий ввід споживає більше токенів. Реальна вартість може зрости на 0–35%.

Якщо маєте додатки, чутливі до бюджету токенів, зробіть порівняння кількості токенів на реальних даних перед апгрейдом. Особливо для сценаріїв обробки довгих документів 35% — не похибка округлення.


Міркування по документах і юридичні сценарії

Помилки міркувань по документах мінус 21%. Точність на BigLaw Bench (юридичний бенчмарк) 90.9%.

Юридичні сценарії завжди були слабким місцем LLM — не тому що моделі «тупі», а тому що юридичний текст вимагає крайньої точності. Різниця між «або» та «і» може перевернути висновок. Зниження помилок на 21% — істотний прогрес.

У поєднанні з покращенням зору рев'ю контрактів стає набагато більш реальним воркфлоу: скан одразу на вхід → витяг пунктів → аналіз ризиків, надійність зросла по всьому ланцюгу.


Безпека й обмеження: свідомі компроміси

Профіль безпеки порівнянний з 4.6: низький рівень обману, низьке підлабузництво, покращена стійкість до prompt injection.

Але два свідомих обмеження:

  1. Кібербезпекові здібності навмисно знижено: порівняно з Mythos Preview, 4.7 активно урізав cyber-здібності. Високоризикові запити автоматично виявляються та блокуються. Дослідники безпеки можуть подати заявку на Cyber Verification Program для легітимного доступу.

  2. Зниження шкоди при контрольованих речовинах: офіційно визнана слабкість — модель неоптимальна в наданні інформації про зниження шкоди щодо контрольованих речовин.

Офіційне формулювання — «largely well-aligned and trustworthy, though not fully ideal», із зазначенням, що Mythos Preview залишається найкращою за вирівнюванням моделлю. 4.7 зробив компроміс — пріоритет практичній здібності, збереження вирівнювання без прориву.


Відношення до Mythos Preview

Anthropic прямо каже, що Opus 4.7 менш універсальний, ніж Mythos Preview, але перевершує Opus 4.6 за кількома практичними бенчмарками: офісні задачі, зір, міркування по документах, довгий контекст, біологія, кодинг, довгострокова зв'язність.

Це натякає на продуктову стратегію Anthropic: лінія Mythos штовхає фронтир (ширші здібності, але можливо дорожче або з обмеженнями), лінія Opus — робочий кінь (достатньо сильний, стабільний, розумна ціна). Для більшості користувачів 4.7 має більше практичної цінності, ніж Mythos Preview.


Матриця рішень по апгрейду

Ваша ситуація Рекомендація
Воркфлоу з активним використанням зору (діаграми, скріншоти, скани) Апгрейд негайно, стрибок величезний
Довгі ланцюги задач / багатокрокові воркфлоу Апгрейд, надійність і використання інструментів покращились
Активний користувач Claude Code Апгрейд, xhigh за замовчуванням + /ultrareview
Аналіз документів / юридичні задачі Апгрейд, міркування й точність помітно зросли
Додатки з високим throughput, чутливі до бюджету токенів Спочатку тест, зміна токенізатора може підвищити вартість
Production-системи з великою кількістю існуючих промптів Тест до апгрейду, зміна дотримання інструкцій може вимагати налаштування
Потреби в кібербезпеці Не апгрейдити або подати заявку, здібності навмисно знижено

Одним рядком

Opus 4.7 — це не апгрейд «більше і дорожче». Це апгрейд «та сама ціна, перерозподілені очки здібностей». Зір і дотримання інструкцій — головні переможці. Зміна токенізатора — найбільша прихована вартість. Прожене свій тест-сьют промптів до апгрейду — а якщо його немає, зараз слушний час його побудувати.