Mổ xẻ Opus 4.7: Cái nên nâng cấp, cái nên chờ, cái phải cẩn thận

Anthropic ra mắt Claude Opus 4.7 hôm nay. Giá không đổi (input $5/M, output $25/M), API identifier claude-opus-4-7, có mặt trên mọi nền tảng — sản phẩm Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Nhìn có vẻ là bản "nâng cấp miễn phí". Nhưng đào sâu vào, có vài thay đổi ảnh hưởng trực tiếp đến cách bạn làm việc. Không phải đổi model ID là xong chuyện.

Vision: Từ "thấy được" sang "dùng được"

Vision của Opus 4.6 thuộc dạng "có nhưng không đáng tin" — độ chính xác thị giác 54.5% cơ bản là tung đồng xu. 4.7 nhảy thẳng lên 98.5%, đồng thời giới hạn độ phân giải tăng lên 2576px cạnh dài (~3.75 triệu pixel), gấp 3 lần trước.

Không phải "khá hơn một chút". Mà là từ đồ chơi thành công cụ.

Tác động thực tế:

Biểu đồ kỹ thuật: sơ đồ kiến trúc, flow, ER có thể đưa thẳng vào mà không cần mô tả thủ công
Cấu trúc hóa học: sơ đồ phân tử trong paper đọc được trực tiếp
Screenshot: nhận diện screenshot UI và lỗi đáng tin cậy hơn nhiều
Tài liệu scan: OCR hợp đồng, hóa đơn, PDF scan giờ đã có nền tảng thực dụng

Nếu trước đây bạn đi đường vòng vì vision yếu (chuyển ảnh thành text trước rồi mới đưa cho model), đã đến lúc đánh giá lại workflow.

Tuân thủ chỉ dẫn: Tin vui cũng là tin buồn

4.7 cải thiện đáng kể việc tuân thủ chỉ dẫn theo nghĩa đen. Trước đây Claude "thông minh" bỏ qua những chi tiết mà nó cho là không quan trọng hoặc diễn giải yêu cầu một cách lỏng lẻo. Giờ nó thực thi theo từng chữ.

Lợi ích: chỉ dẫn multi-step phức tạp, yêu cầu format nghiêm ngặt, xử lý edge case — tất cả đều đáng tin hơn.

Cái giá: prompt cũ của bạn có thể hỏng.

Trước đây Claude "hiểu ý bạn" và bỏ qua cách diễn đạt chưa chính xác. Giờ nó làm đúng như bạn nói. Nếu prompt của bạn có diễn đạt mơ hồ, chỉ dẫn dư thừa, yêu cầu mâu thuẫn — 4.6 có thể đã đỡ bạn, 4.7 thì không.

Gợi ý chuyển đổi:

Test prompt hiện có ở kịch bản rủi ro thấp trước
Tập trung kiểm tra những chỗ "Claude trước đây dường như đoán ý bạn"
Biến kỳ vọng ngầm thành chỉ dẫn tường minh

Đây là kiểu nâng cấp "model thông minh hơn nhưng bạn phải chính xác hơn".

Năng lực code: Số liệu và cảm nhận

Dữ liệu chính thức:

Benchmark	Cải thiện
Benchmark code 93 task	+13%
Rakuten-SWE-Bench (task production)	tỷ lệ giải 3 lần
Workflow multi-step	+14%, ít lỗi tool hơn

3 lần trên Rakuten-SWE-Bench là điểm nhấn — đây là task môi trường production thực, không phải benchmark tổng hợp. +14% ở workflow multi-step cộng với ít lỗi tool nghĩa là độ tin cậy của chuỗi task dài nâng lên một bậc.

Kết hợp với thay đổi Claude Code: mức effort mặc định tăng từ high lên xhigh mới (giữa high và max), model sẽ dồn nhiều token reasoning hơn vào task phức tạp. Command /ultrareview mới cung cấp session review code chuyên biệt, user Pro và Max có 3 lần miễn phí mỗi tháng.

Thay đổi Tokenizer: Cùng giá, nhiều token hơn

4.7 cập nhật tokenizer. Cùng text input giờ ánh xạ sang khoảng 1.0–1.35 lần số token, tùy loại nội dung.

Giá không đổi, nhưng cùng input tiêu tốn nhiều token hơn. Chi phí thực tế có thể tăng 0–35%.

Nếu bạn có ứng dụng nhạy cảm với budget token, hãy chạy so sánh đếm token với dữ liệu thật trước khi nâng cấp. Đặc biệt trong kịch bản xử lý tài liệu dài, 35% không phải con số nhỏ.

Suy luận tài liệu và kịch bản pháp lý

Lỗi suy luận tài liệu giảm 21%, độ chính xác BigLaw Bench (benchmark pháp lý) 90.9%.

Kịch bản pháp lý luôn là điểm yếu của LLM — không phải vì model "không thông minh", mà vì văn bản pháp lý đòi hỏi độ chính xác cực cao. Sự khác biệt giữa "hoặc" và "và" có thể lật ngược kết luận. Giảm 21% lỗi là tiến bộ thực chất.

Kết hợp với nâng cấp vision, review hợp đồng trở thành workflow khả thi hơn nhiều: scan nhập trực tiếp → trích xuất điều khoản → phân tích rủi ro, độ tin cậy cả pipeline đều lên.

An toàn và giới hạn: Đánh đổi có chủ đích

Hồ sơ an toàn tương đương 4.6: tỷ lệ lừa dối thấp, tỷ lệ nịnh thấp, kháng prompt injection cải thiện.

Nhưng có hai giới hạn cố ý:

Năng lực an ninh mạng bị giảm có chủ đích: so với Mythos Preview, 4.7 chủ động hạ năng lực cyber. Yêu cầu rủi ro cao bị tự động phát hiện và chặn. Nhà nghiên cứu bảo mật có thể đăng ký Cyber Verification Program để được quyền sử dụng hợp pháp.
Giảm hại chất bị kiểm soát: điểm yếu được chính thức thừa nhận — model không tối ưu khi cung cấp thông tin giảm hại liên quan đến chất bị kiểm soát.

Cách diễn đạt chính thức là "largely well-aligned and trustworthy, though not fully ideal", chỉ rõ Mythos Preview vẫn là model alignment tốt nhất. 4.7 đã đánh đổi — ưu tiên năng lực thực dụng, duy trì alignment mà không bứt phá.

Quan hệ với Mythos Preview

Anthropic nói rõ Opus 4.7 không toàn diện bằng Mythos Preview, nhưng vượt Opus 4.6 ở nhiều benchmark thực dụng: task văn phòng, vision, suy luận tài liệu, long context, sinh học, code, nhất quán dài hạn.

Điều này gợi ý chiến lược sản phẩm của Anthropic: dòng Mythos đẩy frontier (toàn diện hơn nhưng có thể đắt hoặc hạn chế), dòng Opus là ngựa chiến (đủ mạnh, ổn định, giá hợp lý). Với đa số user, 4.7 có giá trị thực dụng hơn Mythos Preview.

Bảng ra quyết định nâng cấp

Tình huống của bạn	Khuyến nghị
Workflow nặng vision (biểu đồ, screenshot, scan)	Nâng cấp ngay, bước nhảy khổng lồ
Chuỗi task dài / workflow multi-step	Nâng cấp, độ tin cậy và gọi tool đều cải thiện
User nặng Claude Code	Nâng cấp, xhigh mặc định + /ultrareview
Phân tích tài liệu / pháp lý	Nâng cấp, suy luận và chính xác cải thiện rõ
App throughput cao nhạy cảm budget token	Test trước, thay đổi tokenizer có thể tăng chi phí
Hệ thống production với nhiều prompt hiện có	Test trước khi nâng cấp, thay đổi tuân thủ chỉ dẫn có thể cần điều chỉnh prompt
Cần năng lực liên quan an ninh mạng	Không nâng cấp hoặc đăng ký, năng lực bị giảm có chủ đích

Một câu

Opus 4.7 không phải bản nâng cấp "to hơn, đắt hơn". Đây là bản "cùng giá nhưng tái phân bổ điểm năng lực". Vision và tuân thủ chỉ dẫn là hai người thắng lớn nhất. Thay đổi tokenizer là chi phí ẩn lớn nhất. Chạy prompt test suite của bạn trước khi nâng cấp — nếu chưa có, giờ là lúc tốt để dựng lên.