Opus 4.7 متاح: الرؤية من 54% إلى 98%، لكن تغيير tokenizer قد يرفع التكاليف بهدوء بنسبة 35%
أصدرت Anthropic اليوم Claude Opus 4.7. السعر لم يتغير (إدخال $5/M، إخراج $25/M)، معرّف الـ API هو claude-opus-4-7، متاح على كل المنصات — منتجات Claude، الـ API، Bedrock، Vertex AI، Microsoft Foundry.
يبدو وكأنه "ترقية مجانية". لكن عند التدقيق، هناك عدة تغييرات تؤثر مباشرة على طريقة عملك. ليست مجرد مسألة تغيير معرّف الموديل.
رؤية Opus 4.6 كانت في خانة "موجودة تقنياً لكنها غير موثوقة" — دقة بصرية 54.5% أقرب إلى رمي عملة معدنية. 4.7 يقفز مباشرة إلى 98.5%، ويرتفع سقف الدقة إلى 2576 بكسل على الضلع الأطول (~3.75 ميغابكسل)، أي 3 أضعاف السابق.
ليس الأمر "أفضل قليلاً"، بل ترقية من لعبة إلى أداة فعلية.
التأثير الفعلي:
إذا كنت تلتف حول ضعف الرؤية (بتحويل الصور إلى نص يدوياً قبل إطعامها للموديل)، فقد حان الوقت لإعادة تقييم سير العمل.
4.7 حسّن بشكل كبير اتباع التعليمات الحرفية. في السابق كان Claude "يذكاءً" يتخطى التفاصيل التي يعتبرها غير مهمة أو يفسر المتطلبات بشكل فضفاض. الآن ينفذ حرفياً.
الإيجابي: التعليمات المعقدة متعددة الخطوات، متطلبات التنسيق الصارمة، معالجة الحالات الحدودية — كلها أصبحت أكثر موثوقية.
الثمن: prompts القديمة قد تتعطل.
Claude كان سابقاً "يفهم مقصدك" ويتجاوز الصياغة غير الدقيقة. الآن يفعل ما تقوله بالضبط. إن كانت prompts تحتوي عبارات غامضة، أو تعليمات متكررة، أو متطلبات متناقضة — 4.6 ربما كان يسدّ الثغرات، 4.7 لن يفعل.
نصائح الترحيل:
هذه ترقية "الموديل أصبح أذكى، وعليك أن تصبح أدقّ".
البيانات الرسمية:
| المعيار | التحسّن |
|---|---|
| معيار البرمجة لـ 93 مهمة | +13% |
| Rakuten-SWE-Bench (مهام الإنتاج) | معدل حل 3 أضعاف |
| سير العمل متعدد الخطوات | +14%، أخطاء أدوات أقل |
الـ 3 أضعاف في Rakuten-SWE-Bench هي النقطة الأبرز — هذه مهام بيئة إنتاج فعلية، لا معيار اصطناعي. +14% في سير العمل متعدد الخطوات مع قلة أخطاء الأدوات يعني أن سلاسل المهام الطويلة قفزت درجة كاملة في الموثوقية.
مع تغييرات Claude Code: المستوى الافتراضي للجهد ارتفع من high إلى xhigh الجديد (بين high وmax)، فالموديل يُنفق المزيد من tokens الاستدلال على المهام المعقدة. أمر /ultrareview الجديد يوفر جلسات مخصصة لمراجعة الكود، ومستخدمو Pro وMax يحصلون على 3 مجانية شهرياً.
4.7 حدّث الـ tokenizer. نفس النص المُدخل يتحول الآن إلى حوالي 1.0–1.35 ضعف عدد tokens، حسب نوع المحتوى.
السعر لم يتغير، لكن نفس المُدخل يستهلك tokens أكثر. التكلفة الفعلية قد ترتفع 0–35%.
إن كانت لديك تطبيقات حساسة لميزانية tokens، فأجرِ مقارنة حقيقية بعدد tokens ببيانات حقيقية قبل الترقية. خاصة في سيناريوهات المستندات الطويلة، 35% ليس هامش خطأ.
أخطاء استدلال المستندات انخفضت 21%، دقة BigLaw Bench (المعيار القانوني) 90.9%.
السيناريوهات القانونية كانت دائماً نقطة ضعف LLM — ليس لأن الموديلات "غبية"، بل لأن النص القانوني يطالب بدقة عالية جداً. الفرق بين "أو" و"و" قد يقلب الاستنتاج. 21% انخفاض في الأخطاء تقدم فعلي.
مع تحسّن الرؤية، مراجعة العقود أصبحت سير عمل أكثر جدوى: مستند ممسوح مدخل مباشرة → استخراج البنود → تحليل المخاطر، الموثوقية ارتفعت عبر كامل السلسلة.
ملف الأمان مماثل لـ 4.6: معدل خداع منخفض، معدل مجاملة منخفض، مقاومة محسّنة لـ prompt injection.
لكن هناك قيدان مقصودان:
قدرات الأمن السيبراني خُفّضت عمداً: مقارنة بـ Mythos Preview، 4.7 خفّض بنشاط القدرات السيبرانية. الطلبات عالية المخاطر تُكتشف وتُحجب تلقائياً. الباحثون الأمنيون يمكنهم التقدم إلى Cyber Verification Program للحصول على وصول مشروع.
تخفيف الأضرار للمواد الخاضعة للرقابة: نقطة ضعف معترف بها رسمياً — الموديل ليس مثالياً في تقديم معلومات تخفيف الأضرار المتعلقة بالمواد الخاضعة للرقابة.
الصياغة الرسمية: "largely well-aligned and trustworthy, though not fully ideal"، مشيرةً إلى أن Mythos Preview لا يزال أفضل موديل من حيث المحاذاة. 4.7 أجرى مقايضة — أولوية للقدرة العملية، الحفاظ على المحاذاة دون اختراق.
Anthropic تقول صراحة إن Opus 4.7 أقل شمولاً من Mythos Preview، لكنه يتجاوز Opus 4.6 في عدة معايير عملية: مهام المكتب، الرؤية، استدلال المستندات، السياق الطويل، الأحياء، البرمجة، الاتساق طويل المدى.
هذا يلمّح لاستراتيجية منتجات Anthropic: خط Mythos يدفع الحدود (أشمل لكن قد يكون أغلى أو مقيداً)، خط Opus هو حصان العمل (قوي بما يكفي، مستقر، سعر معقول). لأغلب المستخدمين، 4.7 له قيمة عملية أكبر من Mythos Preview.
| وضعك | التوصية |
|---|---|
| سير عمل معتمد على الرؤية (مخططات، لقطات شاشة، مسح ضوئي) | رقّ فوراً، القفزة ضخمة |
| سلاسل مهام طويلة / سير عمل متعدد الخطوات | رقّ، الموثوقية واستخدام الأدوات تحسّنت |
| مستخدم كثيف لـ Claude Code | رقّ، xhigh افتراضي + /ultrareview |
| تحليل مستندات / قانوني | رقّ، الاستدلال والدقة تحسّنا بوضوح |
| تطبيقات عالية الإنتاجية حساسة لميزانية tokens | اختبر أولاً، تغيير tokenizer قد يرفع التكاليف |
| أنظمة إنتاج تعتمد على prompts كثيرة موجودة | اختبر قبل الترقية، تغيير اتباع التعليمات قد يتطلب ضبط prompts |
| حاجة لقدرات متعلقة بالأمن السيبراني | لا ترقّ أو تقدّم، القدرات خُفّضت عمداً |
Opus 4.7 ليس ترقية "أكبر وأغلى". إنه ترقية "نفس السعر، لكن نقاط القدرة أُعيد توزيعها". الرؤية واتباع التعليمات الرابحان الأكبران. تغيير tokenizer أكبر تكلفة خفية. شغّل مجموعة اختبار prompts قبل الترقية — وإن لم تكن عندك واحدة، الآن وقت جيد لبنائها.