Opus 4.7 ra mắt: vision tăng từ 54% lên 98%, nhưng thay đổi tokenizer có thể âm thầm đẩy chi phí lên 35%
Anthropic ra mắt Claude Opus 4.7 hôm nay. Giá không đổi (input $5/M, output $25/M), API identifier claude-opus-4-7, có mặt trên mọi nền tảng — sản phẩm Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Nhìn có vẻ là bản "nâng cấp miễn phí". Nhưng đào sâu vào, có vài thay đổi ảnh hưởng trực tiếp đến cách bạn làm việc. Không phải đổi model ID là xong chuyện.
Vision của Opus 4.6 thuộc dạng "có nhưng không đáng tin" — độ chính xác thị giác 54.5% cơ bản là tung đồng xu. 4.7 nhảy thẳng lên 98.5%, đồng thời giới hạn độ phân giải tăng lên 2576px cạnh dài (~3.75 triệu pixel), gấp 3 lần trước.
Không phải "khá hơn một chút". Mà là từ đồ chơi thành công cụ.
Tác động thực tế:
Nếu trước đây bạn đi đường vòng vì vision yếu (chuyển ảnh thành text trước rồi mới đưa cho model), đã đến lúc đánh giá lại workflow.
4.7 cải thiện đáng kể việc tuân thủ chỉ dẫn theo nghĩa đen. Trước đây Claude "thông minh" bỏ qua những chi tiết mà nó cho là không quan trọng hoặc diễn giải yêu cầu một cách lỏng lẻo. Giờ nó thực thi theo từng chữ.
Lợi ích: chỉ dẫn multi-step phức tạp, yêu cầu format nghiêm ngặt, xử lý edge case — tất cả đều đáng tin hơn.
Cái giá: prompt cũ của bạn có thể hỏng.
Trước đây Claude "hiểu ý bạn" và bỏ qua cách diễn đạt chưa chính xác. Giờ nó làm đúng như bạn nói. Nếu prompt của bạn có diễn đạt mơ hồ, chỉ dẫn dư thừa, yêu cầu mâu thuẫn — 4.6 có thể đã đỡ bạn, 4.7 thì không.
Gợi ý chuyển đổi:
Đây là kiểu nâng cấp "model thông minh hơn nhưng bạn phải chính xác hơn".
Dữ liệu chính thức:
| Benchmark | Cải thiện |
|---|---|
| Benchmark code 93 task | +13% |
| Rakuten-SWE-Bench (task production) | tỷ lệ giải 3 lần |
| Workflow multi-step | +14%, ít lỗi tool hơn |
3 lần trên Rakuten-SWE-Bench là điểm nhấn — đây là task môi trường production thực, không phải benchmark tổng hợp. +14% ở workflow multi-step cộng với ít lỗi tool nghĩa là độ tin cậy của chuỗi task dài nâng lên một bậc.
Kết hợp với thay đổi Claude Code: mức effort mặc định tăng từ high lên xhigh mới (giữa high và max), model sẽ dồn nhiều token reasoning hơn vào task phức tạp. Command /ultrareview mới cung cấp session review code chuyên biệt, user Pro và Max có 3 lần miễn phí mỗi tháng.
4.7 cập nhật tokenizer. Cùng text input giờ ánh xạ sang khoảng 1.0–1.35 lần số token, tùy loại nội dung.
Giá không đổi, nhưng cùng input tiêu tốn nhiều token hơn. Chi phí thực tế có thể tăng 0–35%.
Nếu bạn có ứng dụng nhạy cảm với budget token, hãy chạy so sánh đếm token với dữ liệu thật trước khi nâng cấp. Đặc biệt trong kịch bản xử lý tài liệu dài, 35% không phải con số nhỏ.
Lỗi suy luận tài liệu giảm 21%, độ chính xác BigLaw Bench (benchmark pháp lý) 90.9%.
Kịch bản pháp lý luôn là điểm yếu của LLM — không phải vì model "không thông minh", mà vì văn bản pháp lý đòi hỏi độ chính xác cực cao. Sự khác biệt giữa "hoặc" và "và" có thể lật ngược kết luận. Giảm 21% lỗi là tiến bộ thực chất.
Kết hợp với nâng cấp vision, review hợp đồng trở thành workflow khả thi hơn nhiều: scan nhập trực tiếp → trích xuất điều khoản → phân tích rủi ro, độ tin cậy cả pipeline đều lên.
Hồ sơ an toàn tương đương 4.6: tỷ lệ lừa dối thấp, tỷ lệ nịnh thấp, kháng prompt injection cải thiện.
Nhưng có hai giới hạn cố ý:
Năng lực an ninh mạng bị giảm có chủ đích: so với Mythos Preview, 4.7 chủ động hạ năng lực cyber. Yêu cầu rủi ro cao bị tự động phát hiện và chặn. Nhà nghiên cứu bảo mật có thể đăng ký Cyber Verification Program để được quyền sử dụng hợp pháp.
Giảm hại chất bị kiểm soát: điểm yếu được chính thức thừa nhận — model không tối ưu khi cung cấp thông tin giảm hại liên quan đến chất bị kiểm soát.
Cách diễn đạt chính thức là "largely well-aligned and trustworthy, though not fully ideal", chỉ rõ Mythos Preview vẫn là model alignment tốt nhất. 4.7 đã đánh đổi — ưu tiên năng lực thực dụng, duy trì alignment mà không bứt phá.
Anthropic nói rõ Opus 4.7 không toàn diện bằng Mythos Preview, nhưng vượt Opus 4.6 ở nhiều benchmark thực dụng: task văn phòng, vision, suy luận tài liệu, long context, sinh học, code, nhất quán dài hạn.
Điều này gợi ý chiến lược sản phẩm của Anthropic: dòng Mythos đẩy frontier (toàn diện hơn nhưng có thể đắt hoặc hạn chế), dòng Opus là ngựa chiến (đủ mạnh, ổn định, giá hợp lý). Với đa số user, 4.7 có giá trị thực dụng hơn Mythos Preview.
| Tình huống của bạn | Khuyến nghị |
|---|---|
| Workflow nặng vision (biểu đồ, screenshot, scan) | Nâng cấp ngay, bước nhảy khổng lồ |
| Chuỗi task dài / workflow multi-step | Nâng cấp, độ tin cậy và gọi tool đều cải thiện |
| User nặng Claude Code | Nâng cấp, xhigh mặc định + /ultrareview |
| Phân tích tài liệu / pháp lý | Nâng cấp, suy luận và chính xác cải thiện rõ |
| App throughput cao nhạy cảm budget token | Test trước, thay đổi tokenizer có thể tăng chi phí |
| Hệ thống production với nhiều prompt hiện có | Test trước khi nâng cấp, thay đổi tuân thủ chỉ dẫn có thể cần điều chỉnh prompt |
| Cần năng lực liên quan an ninh mạng | Không nâng cấp hoặc đăng ký, năng lực bị giảm có chủ đích |
Opus 4.7 không phải bản nâng cấp "to hơn, đắt hơn". Đây là bản "cùng giá nhưng tái phân bổ điểm năng lực". Vision và tuân thủ chỉ dẫn là hai người thắng lớn nhất. Thay đổi tokenizer là chi phí ẩn lớn nhất. Chạy prompt test suite của bạn trước khi nâng cấp — nếu chưa có, giờ là lúc tốt để dựng lên.