Opus 4.7 เปิดตัว: vision จาก 54% เป็น 98% แต่การเปลี่ยน tokenizer อาจดันต้นทุนขึ้น 35% เงียบ ๆ
Anthropic ปล่อย Claude Opus 4.7 วันนี้ ราคาไม่เปลี่ยน (อินพุต $5/M, เอาต์พุต $25/M), API identifier claude-opus-4-7, ใช้ได้ทุกแพลตฟอร์ม — ผลิตภัณฑ์ Claude, API, Bedrock, Vertex AI, Microsoft Foundry
ดูเผิน ๆ เหมือน "อัปเกรดฟรี" แต่พอดูรายละเอียด มีหลายจุดที่กระทบวิธีทำงานของคุณโดยตรง ไม่ใช่แค่เปลี่ยน ID โมเดล
Vision ของ Opus 4.6 อยู่ในกลุ่ม "มีอยู่เชิงเทคนิค แต่ไม่น่าเชื่อถือ" — ความแม่นยำทางภาพ 54.5% แทบจะเป็นการโยนเหรียญ 4.7 กระโดดขึ้นไปที่ 98.5% พร้อมเพดานความละเอียดเพิ่มเป็น 2576px บนด้านยาว (~3.75 ล้านพิกเซล) สูงกว่าเดิม 3 เท่า
นี่ไม่ใช่ "ดีขึ้นนิดหน่อย" นี่คือการเลื่อนขั้นจากของเล่นเป็นเครื่องมือ
ผลกระทบจริง:
ถ้าก่อนหน้านี้คุณอ้อมปัญหา vision อ่อนโดยการแปลงภาพเป็นข้อความเอง ถึงเวลาประเมิน workflow ใหม่แล้ว
4.7 ปรับปรุงการทำตามคำสั่งแบบตามตัวอักษรอย่างมีนัยสำคัญ เมื่อก่อน Claude จะ "ฉลาด" ข้ามรายละเอียดที่เห็นว่าไม่สำคัญ หรือตีความเงื่อนไขแบบหลวม ๆ ตอนนี้ทำตามตัวอักษร
ข้อดี: คำสั่งหลายขั้นตอนที่ซับซ้อน รูปแบบเอาต์พุตเข้มงวด การจัดการ edge case — ทั้งหมดน่าเชื่อถือขึ้น
ต้นทุน: prompt เก่าของคุณอาจพังได้
เมื่อก่อน Claude "เข้าใจเจตนา" และมองข้ามถ้อยคำที่ไม่ชัดเจน ตอนนี้ทำตามที่พูดเป๊ะ ๆ ถ้า prompt ของคุณมีคำกำกวม คำสั่งซ้ำซ้อน หรือเงื่อนไขขัดแย้งกันเอง — 4.6 อาจปิดช่องไว้ให้ 4.7 จะไม่ปิด
เคล็ดลับการย้าย:
นี่คืออัปเกรดแบบ "โมเดลฉลาดขึ้น คุณก็ต้องแม่นยำขึ้นตาม"
ข้อมูลทางการ:
| Benchmark | การปรับปรุง |
|---|---|
| Coding benchmark 93 task | +13% |
| Rakuten-SWE-Bench (production tasks) | อัตราแก้ได้ 3 เท่า |
| Multi-step workflows | +14%, error ของ tool ลดลง |
3 เท่าบน Rakuten-SWE-Bench คือหัวข่าว — เป็น task จากสภาพแวดล้อม production จริง ไม่ใช่ benchmark สังเคราะห์ +14% บน multi-step workflow บวกกับ error ของ tool ที่ลดลง หมายความว่าสายงานยาว ๆ เลื่อนขึ้นไปอีกขั้นในด้านความน่าเชื่อถือ
รวมกับการเปลี่ยนแปลงของ Claude Code: ระดับความพยายามเริ่มต้นขยับจาก high ไปเป็น xhigh ใหม่ (อยู่ระหว่าง high กับ max) โมเดลจะใช้ token reasoning มากขึ้นในงานซับซ้อน คำสั่งใหม่ /ultrareview ให้ session review โค้ดโดยเฉพาะ Pro และ Max ผู้ใช้มีให้ฟรี 3 ครั้งต่อเดือน
4.7 อัปเดต tokenizer ข้อความอินพุตเดียวกันตอนนี้แมปไปเป็น token ประมาณ 1.0–1.35 เท่า ขึ้นกับประเภทเนื้อหา
ราคาไม่เปลี่ยน แต่อินพุตเดียวกันกิน token มากขึ้น ต้นทุนจริงอาจเพิ่มขึ้น 0–35%
ถ้ามีแอปพลิเคชันที่ไวต่อ budget token อัปเกรดก่อนควรเทียบจำนวน token ด้วยข้อมูลจริงก่อน โดยเฉพาะสถานการณ์เอกสารยาว 35% ไม่ใช่เศษเสี้ยวปัดเศษ
Error การให้เหตุผลเอกสารลดลง 21% ความแม่นยำ BigLaw Bench (benchmark กฎหมาย) 90.9%
สถานการณ์กฎหมายเป็นจุดอ่อนของ LLM มาตลอด — ไม่ใช่เพราะโมเดล "โง่" แต่เพราะข้อความกฎหมายต้องการความแม่นยำสูงมาก ความต่างระหว่าง "หรือ" กับ "และ" อาจพลิกข้อสรุปได้ ลด error 21% เป็นความก้าวหน้าที่จับต้องได้
รวมกับการยกระดับ vision การรีวิวสัญญากลายเป็น workflow ที่เป็นไปได้มากขึ้น: สแกนเข้าไปตรง ๆ → สกัดข้อกำหนด → วิเคราะห์ความเสี่ยง ความน่าเชื่อถือเพิ่มทั้งสาย
โปรไฟล์ความปลอดภัยเทียบเท่ากับ 4.6: อัตราการหลอกลวงต่ำ การเยินยอต่ำ ต้านทาน prompt injection ได้ดีขึ้น
แต่มีข้อจำกัดโดยตั้งใจสองอย่าง:
ความสามารถด้าน cybersecurity ถูกลดโดยตั้งใจ: เทียบกับ Mythos Preview, 4.7 ลดความสามารถ cyber เชิงรุก คำขอที่เสี่ยงสูงจะถูกตรวจจับและบล็อกอัตโนมัติ นักวิจัยด้านความปลอดภัยสามารถสมัคร Cyber Verification Program เพื่อขอสิทธิ์ใช้งานที่ถูกต้องตามกฎหมาย
คำแนะนำลดอันตรายสารควบคุม: จุดอ่อนที่ยอมรับอย่างเป็นทางการ — โมเดลไม่ดีที่สุดในการให้ข้อมูลลดอันตรายเกี่ยวกับสารควบคุม
ข้อความทางการคือ "largely well-aligned and trustworthy, though not fully ideal" ระบุว่า Mythos Preview ยังคงเป็นโมเดลที่ alignment ดีที่สุด 4.7 แลกเปลี่ยน — ให้ priority ความสามารถเชิงปฏิบัติ คง alignment แต่ไม่ทะลุเพดาน
Anthropic บอกชัดว่า Opus 4.7 ครอบคลุมน้อยกว่า Mythos Preview แต่ชนะ Opus 4.6 ในหลาย benchmark เชิงปฏิบัติ: งานสำนักงาน vision การให้เหตุผลกับเอกสาร long context ชีววิทยา โค้ด ความสอดคล้องระยะยาว
นี่บ่งบอกถึงกลยุทธ์ผลิตภัณฑ์ของ Anthropic: สาย Mythos ผลักพรมแดน (ครอบคลุมกว่าแต่อาจแพงหรือจำกัดกว่า) สาย Opus คือม้าใช้งาน (แรงพอ เสถียร ราคาสมเหตุสมผล) สำหรับผู้ใช้ส่วนใหญ่ 4.7 มีคุณค่าเชิงปฏิบัติมากกว่า Mythos Preview
| สถานการณ์ของคุณ | คำแนะนำ |
|---|---|
| Workflow ใช้ vision หนัก (ไดอะแกรม สกรีนช็อต สแกน) | อัปเกรดเดี๋ยวนี้, การเพิ่มขึ้นมหาศาล |
| สายงานยาว / workflow หลายขั้นตอน | อัปเกรด, ความน่าเชื่อถือและการใช้ tool ดีขึ้น |
| ผู้ใช้ Claude Code หนัก | อัปเกรด, xhigh เป็น default + /ultrareview |
| วิเคราะห์เอกสาร / งานกฎหมาย | อัปเกรด, การให้เหตุผลและความแม่นยำดีขึ้นชัดเจน |
| แอปที่ throughput สูงและไวต่อ budget token | ทดสอบก่อน, การเปลี่ยน tokenizer อาจเพิ่มต้นทุน |
| ระบบ production ที่มี prompt เดิมจำนวนมาก | ทดสอบก่อนอัปเกรด, การเปลี่ยนการทำตามคำสั่งอาจต้องจูน prompt |
| ต้องใช้ความสามารถ cybersecurity | ไม่อัปเกรดหรือสมัคร, ความสามารถถูกลดโดยตั้งใจ |
Opus 4.7 ไม่ใช่อัปเกรดแบบ "ใหญ่ขึ้น แพงขึ้น" เป็นอัปเกรดแบบ "ราคาเท่าเดิม แต่จัดสรรแต้มความสามารถใหม่" Vision และการทำตามคำสั่งคือผู้ชนะใหญ่ การเปลี่ยน tokenizer คือต้นทุนแฝงที่ใหญ่ที่สุด รันชุดทดสอบ prompt ของคุณก่อนอัปเกรด — ถ้ายังไม่มี ตอนนี้เป็นเวลาที่ดีในการสร้าง