Opus 4.7 출시: 비전 54%에서 98%로, 하지만 tokenizer 변경으로 비용이 35% 조용히 오를 수도
Anthropic이 오늘 Claude Opus 4.7을 출시했다. 가격은 동일(입력 $5/M, 출력 $25/M), API 식별자는 claude-opus-4-7, 전 플랫폼 사용 가능 — Claude 제품, API, Bedrock, Vertex AI, Microsoft Foundry.
겉보기엔 "무료 업그레이드"지만, 자세히 보면 작업 방식에 직접 영향을 주는 변화가 몇 개 있다. 모델 ID만 바꿔서 끝나는 얘기가 아니다.
Opus 4.6의 비전은 "있긴 있는데 쓸만하진 않은" 수준이었다 — 시각 정확도 54.5%는 사실상 동전 던지기 수준. 4.7은 단숨에 98.5%로 끌어올렸고, 해상도 상한도 장변 2576px(약 375만 화소)로, 이전 대비 3배가 됐다.
"약간 좋아진" 게 아니다. "장난감"에서 "도구"로 승격된 거다.
실제 영향:
비전 능력 부족으로 우회하던(이미지를 먼저 텍스트로 변환해서 모델에 넣던) 사람은 워크플로우를 재평가할 때다.
4.7은 문자 그대로의 지시 준수를 크게 개선했다. 예전 Claude는 "영리하게" 중요하지 않다고 판단한 지시 세부사항을 건너뛰거나 요구사항을 느슨하게 해석했다. 이제는 글자 그대로 실행한다.
장점: 복잡한 다단계 지시, 엄격한 포맷 요구 출력, 경계 조건 처리 — 모두 신뢰도가 올라갔다.
단점: 기존 프롬프트가 깨질 수 있다.
예전엔 Claude가 "의도를 이해하고" 부정확한 표현을 눈감아줬다. 이제는 말한 그대로 한다. 프롬프트에 모호한 표현, 중복된 지시, 앞뒤 모순된 요구가 있다면 — 4.6은 커버해줬을지 몰라도 4.7은 아니다.
마이그레이션 팁:
"모델이 더 똑똑해졌으니 당신도 더 정확해져야 하는" 업그레이드다.
공식 데이터:
| 벤치마크 | 개선 폭 |
|---|---|
| 93개 태스크 코딩 벤치마크 | +13% |
| Rakuten-SWE-Bench(프로덕션 태스크) | 해결률 3배 |
| 다단계 워크플로우 | +14%, 툴 에러 감소 |
Rakuten-SWE-Bench의 3배가 가장 주목할 만하다 — 실제 프로덕션 태스크이지 합성 벤치마크가 아니다. 다단계 워크플로우 +14%에 툴 에러 감소까지 더하면, 긴 태스크 체인의 신뢰도가 한 단계 올라간 셈이다.
Claude Code의 변화와 결합하면: 기본 노력 레벨이 high에서 새로 추가된 xhigh(high와 max 사이)로 상승해서, 복잡한 태스크에 더 많은 추론 토큰을 쓴다. 새로 추가된 /ultrareview 명령은 전용 코드 리뷰 세션을 제공하고, Pro와 Max 사용자는 월 3회 무료다.
4.7은 tokenizer를 업데이트했다. 같은 입력 텍스트가 이제 약 1.0~1.35배의 토큰 수로 매핑된다. 콘텐츠 유형에 따라 다르다.
가격은 그대로지만, 같은 입력이 소비하는 토큰이 늘었다. 실제 비용은 0~35% 상승할 수 있다.
토큰 예산에 민감한 애플리케이션이라면 업그레이드 전에 실제 데이터로 토큰 카운트 비교를 해봐라. 특히 장문 처리 시나리오에서 35% 상승은 작은 숫자가 아니다.
문서 추론 에러 21% 감소, BigLaw Bench 법률 벤치마크 정확도 90.9%.
법률 시나리오는 오랫동안 LLM의 약점이었다 — 모델이 "멍청해서"가 아니라, 법률 텍스트가 정밀성을 극단적으로 요구하기 때문이다. "또는"과 "및"의 차이가 결론을 뒤집는다. 21% 에러 감소는 실질적인 진전이다.
비전 개선과 결합하면 계약서 리뷰가 훨씬 실행 가능한 워크플로우가 된다: 스캔본 직접 입력 → 조항 인식 → 리스크 분석, 파이프라인 전체의 신뢰도가 올랐다.
안전성 프로파일은 4.6과 대체로 같다: 낮은 기만율, 낮은 아부율, 프롬프트 인젝션 저항성 개선.
단 두 가지 의도된 제약:
사이버 보안 능력 의도적 축소: Mythos Preview 대비, 4.7은 사이버 관련 능력을 의도적으로 낮췄다. 고위험 요청은 자동 탐지·차단된다. 보안 연구자는 Cyber Verification Program을 신청하면 합법적 사용 권한을 받을 수 있다.
규제 물질 피해 감소 조언: 공식적으로 인정한 약점 — 규제 물질 관련 피해 감소 정보 제공에서 이상적인 수준은 아니다.
공식 문구는 "largely well-aligned and trustworthy, though not fully ideal"이며, Mythos Preview가 여전히 정렬성이 가장 좋은 모델이라고 명시한다. 4.7은 트레이드오프를 했다 — 실용 능력을 우선시하고 정렬성은 유지하되 돌파는 하지 않았다.
Anthropic은 Opus 4.7이 Mythos Preview만큼 "포괄적"이지는 않지만, 여러 실용 벤치마크에서 Opus 4.6을 능가한다고 명시한다: 오피스 태스크, 비전, 문서 추론, 롱 컨텍스트, 생물, 코딩, 장기 일관성.
이는 Anthropic의 제품 전략을 시사한다: Mythos 라인은 프론티어 탐색(더 포괄적이지만 비싸거나 제약 있을 수 있음), Opus 라인은 실용 라인(충분히 강력, 안정, 합리적 가격). 대다수 사용자에게 4.7의 실용 가치는 Mythos Preview보다 높다.
| 당신의 상황 | 권장 사항 |
|---|---|
| 비전 처리 수요 있음(다이어그램, 스크린샷, 스캔본) | 즉시 업그레이드, 개선 폭 엄청남 |
| 긴 태스크 체인 / 다단계 워크플로우 | 업그레이드, 신뢰도와 툴 호출 모두 개선 |
| Claude Code 헤비 유저 | 업그레이드, xhigh 기본 + /ultrareview |
| 문서 분석 / 법률 시나리오 | 업그레이드, 추론과 정밀도 개선 뚜렷 |
| 토큰 예산 빡빡한 고처리량 앱 | 먼저 테스트, tokenizer 변경으로 비용 상승 가능 |
| 기존 프롬프트 많이 쓰는 프로덕션 시스템 | 테스트 후 업그레이드, 지시 준수 변화로 프롬프트 튜닝 필요할 수 있음 |
| 사이버 보안 관련 능력 필요 | 업그레이드 안 하거나 신청, 능력 의도적 축소 |
Opus 4.7은 "더 크고 더 비싼" 업그레이드가 아니다. "같은 가격에 능력 포인트 재분배" 업그레이드다. 비전과 지시 준수가 최대 수혜자, tokenizer 변경이 최대 숨은 비용. 업그레이드 전에 프롬프트 테스트 스위트를 돌려봐라 — 없다면 지금이 만들기 좋은 타이밍이다.