Opus 4.7 вышел: зрение с 54% до 98%, но изменение токенизатора может незаметно поднять стоимость на 35%
Anthropic выпустила Claude Opus 4.7 сегодня. Цены без изменений (вход $5/M, выход $25/M), идентификатор API claude-opus-4-7, доступно везде — продукты Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Выглядит как «бесплатный апгрейд». Но если копнуть глубже, есть несколько изменений, которые напрямую влияют на то, как вы работаете. Это не просто смена ID модели.
Зрение Opus 4.6 было из категории «технически есть, но ненадёжно» — 54.5% визуальной точности, по сути подбрасывание монеты. 4.7 подскакивает до 98.5%, а предел разрешения поднимается до 2576px по длинной стороне (~3.75 мегапикселя), в 3 раза больше прежнего.
Это не «чуть лучше». Это переход от игрушки к инструменту.
Конкретное влияние:
Если вы обходили слабое зрение, конвертируя изображения в текст вручную, пора пересмотреть воркфлоу.
4.7 существенно улучшил буквальное следование инструкциям. Раньше Claude «умно» пропускал детали, которые считал неважными, или трактовал требования вольно. Теперь выполняет буквально.
Плюс: сложные многошаговые инструкции, строгие требования к формату, обработка граничных случаев — всё надёжнее.
Цена: ваши существующие промпты могут сломаться.
Claude раньше «понимал намерение» и сглаживал неточные формулировки. Теперь делает ровно то, что вы сказали. Если в промптах есть расплывчатые формулировки, избыточные инструкции, противоречивые требования — 4.6 мог за вас это прикрыть, 4.7 не будет.
Советы по миграции:
Это апгрейд «модель стала умнее, значит вам нужно стать точнее».
Официальные данные:
| Бенчмарк | Улучшение |
|---|---|
| Кодинг-бенчмарк на 93 задачах | +13% |
| Rakuten-SWE-Bench (production-задачи) | уровень решения ×3 |
| Многошаговые воркфлоу | +14%, меньше ошибок инструментов |
×3 на Rakuten-SWE-Bench — главная цифра, это реальные задачи production-среды, а не синтетический бенчмарк. +14% на многошаговых воркфлоу плюс снижение ошибок инструментов означают, что длинные цепочки задач поднялись на ступень выше по надёжности.
Вместе с изменениями Claude Code: дефолтный уровень усилий поднялся с high до нового xhigh (между high и max), то есть модель тратит больше reasoning-токенов на сложные задачи. Новая команда /ultrareview даёт выделенные сессии для ревью кода, пользователи Pro и Max получают 3 бесплатных в месяц.
4.7 обновил токенизатор. Тот же входной текст теперь отображается примерно в 1.0–1.35× количества токенов, в зависимости от типа контента.
Цена не изменилась, но тот же ввод потребляет больше токенов. Реальная стоимость может вырасти на 0–35%.
Если у вас приложения, чувствительные к бюджету токенов, сделайте сравнение количества токенов на реальных данных перед апгрейдом. Особенно для сценариев обработки длинных документов 35% — не погрешность округления.
Ошибки рассуждений по документам минус 21%. Точность на BigLaw Bench (юридический бенчмарк) 90.9%.
Юридические сценарии всегда были слабым местом LLM — не потому что модели «тупые», а потому что юридический текст требует крайней точности. Разница между «или» и «и» может перевернуть вывод. Снижение ошибок на 21% — существенный прогресс.
В сочетании с улучшением зрения ревью контрактов становится куда более реальным воркфлоу: скан сразу на вход → извлечение пунктов → анализ рисков, надёжность выросла по всей цепочке.
Профиль безопасности сопоставим с 4.6: низкий уровень обмана, низкая лесть, улучшенная стойкость к prompt injection.
Но два сознательных ограничения:
Кибербезопасные способности намеренно снижены: по сравнению с Mythos Preview 4.7 активно урезал cyber-способности. Высокорисковые запросы автоматически обнаруживаются и блокируются. Исследователи безопасности могут подать заявку на Cyber Verification Program для легитимного доступа.
Снижение вреда при контролируемых веществах: официально признанная слабость — модель неоптимальна в предоставлении информации о снижении вреда в отношении контролируемых веществ.
Официальная формулировка — «largely well-aligned and trustworthy, though not fully ideal», с указанием, что Mythos Preview остаётся лучшей по выравниванию моделью. 4.7 сделал компромисс — приоритет практической способности, сохранение выравнивания без прорыва.
Anthropic прямо говорит, что Opus 4.7 менее универсален, чем Mythos Preview, но превосходит Opus 4.6 по нескольким практическим бенчмаркам: офисные задачи, зрение, рассуждения по документам, длинный контекст, биология, кодинг, долгосрочная связность.
Это намекает на продуктовую стратегию Anthropic: линия Mythos толкает фронтир (шире способности, но возможно дороже или с ограничениями), линия Opus — рабочая лошадка (достаточно сильная, стабильная, разумно цена). Для большинства пользователей 4.7 имеет больше практической ценности, чем Mythos Preview.
| Ваша ситуация | Рекомендация |
|---|---|
| Воркфлоу с активным использованием зрения (диаграммы, скриншоты, сканы) | Апгрейд немедленно, скачок огромный |
| Длинные цепочки задач / многошаговые воркфлоу | Апгрейд, надёжность и использование инструментов улучшились |
| Активный пользователь Claude Code | Апгрейд, xhigh по умолчанию + /ultrareview |
| Анализ документов / юридические задачи | Апгрейд, рассуждения и точность ощутимо выросли |
| Приложения с высоким throughput, чувствительные к бюджету токенов | Сначала тест, изменение токенизатора может повысить стоимость |
| Production-системы с большим количеством существующих промптов | Тест до апгрейда, изменение следования инструкциям может потребовать настройки |
| Потребности в кибербезопасности | Не апгрейдить или подать заявку, способности намеренно снижены |
Opus 4.7 — это не апгрейд «больше и дороже». Это апгрейд «та же цена, перераспределённые очки способностей». Зрение и следование инструкциям — главные победители. Изменение токенизатора — главная скрытая стоимость. Прогоните свой тест-сьют промптов до апгрейда — а если его нет, сейчас подходящее время его построить.