Opus 4.7 심층 분석: 업그레이드할 것, 지켜볼 것, 조심할 것

Anthropic이 오늘 Claude Opus 4.7을 출시했다. 가격은 동일(입력 $5/M, 출력 $25/M), API 식별자는 claude-opus-4-7, 전 플랫폼 사용 가능 — Claude 제품, API, Bedrock, Vertex AI, Microsoft Foundry.

겉보기엔 "무료 업그레이드"지만, 자세히 보면 작업 방식에 직접 영향을 주는 변화가 몇 개 있다. 모델 ID만 바꿔서 끝나는 얘기가 아니다.

비전: "보긴 본다"에서 "실제로 쓸 수 있다"로

Opus 4.6의 비전은 "있긴 있는데 쓸만하진 않은" 수준이었다 — 시각 정확도 54.5%는 사실상 동전 던지기 수준. 4.7은 단숨에 98.5%로 끌어올렸고, 해상도 상한도 장변 2576px(약 375만 화소)로, 이전 대비 3배가 됐다.

"약간 좋아진" 게 아니다. "장난감"에서 "도구"로 승격된 거다.

실제 영향:

기술 다이어그램: 아키텍처 다이어그램, 플로우차트, ER 다이어그램을 바로 던져주면 된다. 수동으로 설명 안 해도 된다
화학 구조식: 논문 속 분자 구조도를 바로 인식한다
스크린샷: UI 스크린샷, 에러 스크린샷 인식 신뢰도가 대폭 상승
문서 스캔본: 계약서, 영수증 등 스캔 PDF의 OCR 정확도가 실용 수준에 도달

비전 능력 부족으로 우회하던(이미지를 먼저 텍스트로 변환해서 모델에 넣던) 사람은 워크플로우를 재평가할 때다.

지시 준수: 좋은 소식이자 나쁜 소식

4.7은 문자 그대로의 지시 준수를 크게 개선했다. 예전 Claude는 "영리하게" 중요하지 않다고 판단한 지시 세부사항을 건너뛰거나 요구사항을 느슨하게 해석했다. 이제는 글자 그대로 실행한다.

장점: 복잡한 다단계 지시, 엄격한 포맷 요구 출력, 경계 조건 처리 — 모두 신뢰도가 올라갔다.

단점: 기존 프롬프트가 깨질 수 있다.

예전엔 Claude가 "의도를 이해하고" 부정확한 표현을 눈감아줬다. 이제는 말한 그대로 한다. 프롬프트에 모호한 표현, 중복된 지시, 앞뒤 모순된 요구가 있다면 — 4.6은 커버해줬을지 몰라도 4.7은 아니다.

마이그레이션 팁:

먼저 저위험 시나리오에서 기존 프롬프트 테스트
"Claude가 예전에 의도를 추측하던 것 같은" 부분을 중점 확인
암묵적 기대를 명시적 지시로 변환

"모델이 더 똑똑해졌으니 당신도 더 정확해져야 하는" 업그레이드다.

코딩 능력: 숫자와 체감

공식 데이터:

벤치마크	개선 폭
93개 태스크 코딩 벤치마크	+13%
Rakuten-SWE-Bench(프로덕션 태스크)	해결률 3배
다단계 워크플로우	+14%, 툴 에러 감소

Rakuten-SWE-Bench의 3배가 가장 주목할 만하다 — 실제 프로덕션 태스크이지 합성 벤치마크가 아니다. 다단계 워크플로우 +14%에 툴 에러 감소까지 더하면, 긴 태스크 체인의 신뢰도가 한 단계 올라간 셈이다.

Claude Code의 변화와 결합하면: 기본 노력 레벨이 high에서 새로 추가된 xhigh(high와 max 사이)로 상승해서, 복잡한 태스크에 더 많은 추론 토큰을 쓴다. 새로 추가된 /ultrareview 명령은 전용 코드 리뷰 세션을 제공하고, Pro와 Max 사용자는 월 3회 무료다.

Tokenizer 변경: 가격은 같지만 토큰은 더 먹는다

4.7은 tokenizer를 업데이트했다. 같은 입력 텍스트가 이제 약 1.0~1.35배의 토큰 수로 매핑된다. 콘텐츠 유형에 따라 다르다.

가격은 그대로지만, 같은 입력이 소비하는 토큰이 늘었다. 실제 비용은 0~35% 상승할 수 있다.

토큰 예산에 민감한 애플리케이션이라면 업그레이드 전에 실제 데이터로 토큰 카운트 비교를 해봐라. 특히 장문 처리 시나리오에서 35% 상승은 작은 숫자가 아니다.

문서 추론과 법률 시나리오

문서 추론 에러 21% 감소, BigLaw Bench 법률 벤치마크 정확도 90.9%.

법률 시나리오는 오랫동안 LLM의 약점이었다 — 모델이 "멍청해서"가 아니라, 법률 텍스트가 정밀성을 극단적으로 요구하기 때문이다. "또는"과 "및"의 차이가 결론을 뒤집는다. 21% 에러 감소는 실질적인 진전이다.

비전 개선과 결합하면 계약서 리뷰가 훨씬 실행 가능한 워크플로우가 된다: 스캔본 직접 입력 → 조항 인식 → 리스크 분석, 파이프라인 전체의 신뢰도가 올랐다.

안전성과 제약: 의도된 트레이드오프

안전성 프로파일은 4.6과 대체로 같다: 낮은 기만율, 낮은 아부율, 프롬프트 인젝션 저항성 개선.

단 두 가지 의도된 제약:

사이버 보안 능력 의도적 축소: Mythos Preview 대비, 4.7은 사이버 관련 능력을 의도적으로 낮췄다. 고위험 요청은 자동 탐지·차단된다. 보안 연구자는 Cyber Verification Program을 신청하면 합법적 사용 권한을 받을 수 있다.
규제 물질 피해 감소 조언: 공식적으로 인정한 약점 — 규제 물질 관련 피해 감소 정보 제공에서 이상적인 수준은 아니다.

공식 문구는 "largely well-aligned and trustworthy, though not fully ideal"이며, Mythos Preview가 여전히 정렬성이 가장 좋은 모델이라고 명시한다. 4.7은 트레이드오프를 했다 — 실용 능력을 우선시하고 정렬성은 유지하되 돌파는 하지 않았다.

Mythos Preview와의 관계

Anthropic은 Opus 4.7이 Mythos Preview만큼 "포괄적"이지는 않지만, 여러 실용 벤치마크에서 Opus 4.6을 능가한다고 명시한다: 오피스 태스크, 비전, 문서 추론, 롱 컨텍스트, 생물, 코딩, 장기 일관성.

이는 Anthropic의 제품 전략을 시사한다: Mythos 라인은 프론티어 탐색(더 포괄적이지만 비싸거나 제약 있을 수 있음), Opus 라인은 실용 라인(충분히 강력, 안정, 합리적 가격). 대다수 사용자에게 4.7의 실용 가치는 Mythos Preview보다 높다.

업그레이드 의사결정 표

당신의 상황	권장 사항
비전 처리 수요 있음(다이어그램, 스크린샷, 스캔본)	즉시 업그레이드, 개선 폭 엄청남
긴 태스크 체인 / 다단계 워크플로우	업그레이드, 신뢰도와 툴 호출 모두 개선
Claude Code 헤비 유저	업그레이드, xhigh 기본 + /ultrareview
문서 분석 / 법률 시나리오	업그레이드, 추론과 정밀도 개선 뚜렷
토큰 예산 빡빡한 고처리량 앱	먼저 테스트, tokenizer 변경으로 비용 상승 가능
기존 프롬프트 많이 쓰는 프로덕션 시스템	테스트 후 업그레이드, 지시 준수 변화로 프롬프트 튜닝 필요할 수 있음
사이버 보안 관련 능력 필요	업그레이드 안 하거나 신청, 능력 의도적 축소

한 줄 요약

Opus 4.7은 "더 크고 더 비싼" 업그레이드가 아니다. "같은 가격에 능력 포인트 재분배" 업그레이드다. 비전과 지시 준수가 최대 수혜자, tokenizer 변경이 최대 숨은 비용. 업그레이드 전에 프롬프트 테스트 스위트를 돌려봐라 — 없다면 지금이 만들기 좋은 타이밍이다.