Free

เจาะลึก Opus 4.7: อะไรควรอัปเกรด อะไรควรรอ อะไรควรระวัง

Opus 4.7 เปิดตัว: vision จาก 54% เป็น 98% แต่การเปลี่ยน tokenizer อาจดันต้นทุนขึ้น 35% เงียบ ๆ


Anthropic ปล่อย Claude Opus 4.7 วันนี้ ราคาไม่เปลี่ยน (อินพุต $5/M, เอาต์พุต $25/M), API identifier claude-opus-4-7, ใช้ได้ทุกแพลตฟอร์ม — ผลิตภัณฑ์ Claude, API, Bedrock, Vertex AI, Microsoft Foundry

ดูเผิน ๆ เหมือน "อัปเกรดฟรี" แต่พอดูรายละเอียด มีหลายจุดที่กระทบวิธีทำงานของคุณโดยตรง ไม่ใช่แค่เปลี่ยน ID โมเดล


Vision: จาก "พอเห็น" สู่ "ใช้งานได้จริง"

Vision ของ Opus 4.6 อยู่ในกลุ่ม "มีอยู่เชิงเทคนิค แต่ไม่น่าเชื่อถือ" — ความแม่นยำทางภาพ 54.5% แทบจะเป็นการโยนเหรียญ 4.7 กระโดดขึ้นไปที่ 98.5% พร้อมเพดานความละเอียดเพิ่มเป็น 2576px บนด้านยาว (~3.75 ล้านพิกเซล) สูงกว่าเดิม 3 เท่า

นี่ไม่ใช่ "ดีขึ้นนิดหน่อย" นี่คือการเลื่อนขั้นจากของเล่นเป็นเครื่องมือ

ผลกระทบจริง:

  • ไดอะแกรมเทคนิค: ไดอะแกรมสถาปัตยกรรม flow, ER ใส่เข้าไปตรง ๆ ได้ ไม่ต้องถอดเป็นข้อความเอง
  • โครงสร้างทางเคมี: ไดอะแกรมโมเลกุลจาก paper อ่านออกตรง ๆ ได้
  • สกรีนช็อต: ความน่าเชื่อถือในการรู้จำสกรีนช็อต UI และ error เพิ่มขึ้นชัดเจน
  • เอกสารสแกน: OCR บนสัญญา ใบแจ้งหนี้ และ PDF สแกน มีฐานที่ใช้งานได้จริงแล้ว

ถ้าก่อนหน้านี้คุณอ้อมปัญหา vision อ่อนโดยการแปลงภาพเป็นข้อความเอง ถึงเวลาประเมิน workflow ใหม่แล้ว


การทำตามคำสั่ง: ข่าวดีก็คือข่าวร้ายด้วย

4.7 ปรับปรุงการทำตามคำสั่งแบบตามตัวอักษรอย่างมีนัยสำคัญ เมื่อก่อน Claude จะ "ฉลาด" ข้ามรายละเอียดที่เห็นว่าไม่สำคัญ หรือตีความเงื่อนไขแบบหลวม ๆ ตอนนี้ทำตามตัวอักษร

ข้อดี: คำสั่งหลายขั้นตอนที่ซับซ้อน รูปแบบเอาต์พุตเข้มงวด การจัดการ edge case — ทั้งหมดน่าเชื่อถือขึ้น

ต้นทุน: prompt เก่าของคุณอาจพังได้

เมื่อก่อน Claude "เข้าใจเจตนา" และมองข้ามถ้อยคำที่ไม่ชัดเจน ตอนนี้ทำตามที่พูดเป๊ะ ๆ ถ้า prompt ของคุณมีคำกำกวม คำสั่งซ้ำซ้อน หรือเงื่อนไขขัดแย้งกันเอง — 4.6 อาจปิดช่องไว้ให้ 4.7 จะไม่ปิด

เคล็ดลับการย้าย:

  1. ทดสอบ prompt ที่มีอยู่ก่อนในสถานการณ์ที่เสี่ยงต่ำ
  2. โฟกัสจุดที่ "Claude ดูเหมือนเดาเจตนาคุณ" เมื่อก่อน
  3. เปลี่ยนความคาดหวังแฝงให้เป็นคำสั่งชัดเจน

นี่คืออัปเกรดแบบ "โมเดลฉลาดขึ้น คุณก็ต้องแม่นยำขึ้นตาม"


ความสามารถด้านโค้ด: ตัวเลขและความรู้สึก

ข้อมูลทางการ:

Benchmark การปรับปรุง
Coding benchmark 93 task +13%
Rakuten-SWE-Bench (production tasks) อัตราแก้ได้ 3 เท่า
Multi-step workflows +14%, error ของ tool ลดลง

3 เท่าบน Rakuten-SWE-Bench คือหัวข่าว — เป็น task จากสภาพแวดล้อม production จริง ไม่ใช่ benchmark สังเคราะห์ +14% บน multi-step workflow บวกกับ error ของ tool ที่ลดลง หมายความว่าสายงานยาว ๆ เลื่อนขึ้นไปอีกขั้นในด้านความน่าเชื่อถือ

รวมกับการเปลี่ยนแปลงของ Claude Code: ระดับความพยายามเริ่มต้นขยับจาก high ไปเป็น xhigh ใหม่ (อยู่ระหว่าง high กับ max) โมเดลจะใช้ token reasoning มากขึ้นในงานซับซ้อน คำสั่งใหม่ /ultrareview ให้ session review โค้ดโดยเฉพาะ Pro และ Max ผู้ใช้มีให้ฟรี 3 ครั้งต่อเดือน


การเปลี่ยน Tokenizer: ราคาเท่าเดิม แต่ token เยอะขึ้น

4.7 อัปเดต tokenizer ข้อความอินพุตเดียวกันตอนนี้แมปไปเป็น token ประมาณ 1.0–1.35 เท่า ขึ้นกับประเภทเนื้อหา

ราคาไม่เปลี่ยน แต่อินพุตเดียวกันกิน token มากขึ้น ต้นทุนจริงอาจเพิ่มขึ้น 0–35%

ถ้ามีแอปพลิเคชันที่ไวต่อ budget token อัปเกรดก่อนควรเทียบจำนวน token ด้วยข้อมูลจริงก่อน โดยเฉพาะสถานการณ์เอกสารยาว 35% ไม่ใช่เศษเสี้ยวปัดเศษ


การให้เหตุผลกับเอกสารและสถานการณ์กฎหมาย

Error การให้เหตุผลเอกสารลดลง 21% ความแม่นยำ BigLaw Bench (benchmark กฎหมาย) 90.9%

สถานการณ์กฎหมายเป็นจุดอ่อนของ LLM มาตลอด — ไม่ใช่เพราะโมเดล "โง่" แต่เพราะข้อความกฎหมายต้องการความแม่นยำสูงมาก ความต่างระหว่าง "หรือ" กับ "และ" อาจพลิกข้อสรุปได้ ลด error 21% เป็นความก้าวหน้าที่จับต้องได้

รวมกับการยกระดับ vision การรีวิวสัญญากลายเป็น workflow ที่เป็นไปได้มากขึ้น: สแกนเข้าไปตรง ๆ → สกัดข้อกำหนด → วิเคราะห์ความเสี่ยง ความน่าเชื่อถือเพิ่มทั้งสาย


ความปลอดภัยและข้อจำกัด: การแลกเปลี่ยนที่ตั้งใจ

โปรไฟล์ความปลอดภัยเทียบเท่ากับ 4.6: อัตราการหลอกลวงต่ำ การเยินยอต่ำ ต้านทาน prompt injection ได้ดีขึ้น

แต่มีข้อจำกัดโดยตั้งใจสองอย่าง:

  1. ความสามารถด้าน cybersecurity ถูกลดโดยตั้งใจ: เทียบกับ Mythos Preview, 4.7 ลดความสามารถ cyber เชิงรุก คำขอที่เสี่ยงสูงจะถูกตรวจจับและบล็อกอัตโนมัติ นักวิจัยด้านความปลอดภัยสามารถสมัคร Cyber Verification Program เพื่อขอสิทธิ์ใช้งานที่ถูกต้องตามกฎหมาย

  2. คำแนะนำลดอันตรายสารควบคุม: จุดอ่อนที่ยอมรับอย่างเป็นทางการ — โมเดลไม่ดีที่สุดในการให้ข้อมูลลดอันตรายเกี่ยวกับสารควบคุม

ข้อความทางการคือ "largely well-aligned and trustworthy, though not fully ideal" ระบุว่า Mythos Preview ยังคงเป็นโมเดลที่ alignment ดีที่สุด 4.7 แลกเปลี่ยน — ให้ priority ความสามารถเชิงปฏิบัติ คง alignment แต่ไม่ทะลุเพดาน


ความสัมพันธ์กับ Mythos Preview

Anthropic บอกชัดว่า Opus 4.7 ครอบคลุมน้อยกว่า Mythos Preview แต่ชนะ Opus 4.6 ในหลาย benchmark เชิงปฏิบัติ: งานสำนักงาน vision การให้เหตุผลกับเอกสาร long context ชีววิทยา โค้ด ความสอดคล้องระยะยาว

นี่บ่งบอกถึงกลยุทธ์ผลิตภัณฑ์ของ Anthropic: สาย Mythos ผลักพรมแดน (ครอบคลุมกว่าแต่อาจแพงหรือจำกัดกว่า) สาย Opus คือม้าใช้งาน (แรงพอ เสถียร ราคาสมเหตุสมผล) สำหรับผู้ใช้ส่วนใหญ่ 4.7 มีคุณค่าเชิงปฏิบัติมากกว่า Mythos Preview


ตารางตัดสินใจอัปเกรด

สถานการณ์ของคุณ คำแนะนำ
Workflow ใช้ vision หนัก (ไดอะแกรม สกรีนช็อต สแกน) อัปเกรดเดี๋ยวนี้, การเพิ่มขึ้นมหาศาล
สายงานยาว / workflow หลายขั้นตอน อัปเกรด, ความน่าเชื่อถือและการใช้ tool ดีขึ้น
ผู้ใช้ Claude Code หนัก อัปเกรด, xhigh เป็น default + /ultrareview
วิเคราะห์เอกสาร / งานกฎหมาย อัปเกรด, การให้เหตุผลและความแม่นยำดีขึ้นชัดเจน
แอปที่ throughput สูงและไวต่อ budget token ทดสอบก่อน, การเปลี่ยน tokenizer อาจเพิ่มต้นทุน
ระบบ production ที่มี prompt เดิมจำนวนมาก ทดสอบก่อนอัปเกรด, การเปลี่ยนการทำตามคำสั่งอาจต้องจูน prompt
ต้องใช้ความสามารถ cybersecurity ไม่อัปเกรดหรือสมัคร, ความสามารถถูกลดโดยตั้งใจ

สรุปบรรทัดเดียว

Opus 4.7 ไม่ใช่อัปเกรดแบบ "ใหญ่ขึ้น แพงขึ้น" เป็นอัปเกรดแบบ "ราคาเท่าเดิม แต่จัดสรรแต้มความสามารถใหม่" Vision และการทำตามคำสั่งคือผู้ชนะใหญ่ การเปลี่ยน tokenizer คือต้นทุนแฝงที่ใหญ่ที่สุด รันชุดทดสอบ prompt ของคุณก่อนอัปเกรด — ถ้ายังไม่มี ตอนนี้เป็นเวลาที่ดีในการสร้าง