Free

Opus 4.7 بالتفصيل: ما يستحق الترقية، وما ينتظر، وما يجب الحذر منه

Opus 4.7 متاح: الرؤية من 54% إلى 98%، لكن تغيير tokenizer قد يرفع التكاليف بهدوء بنسبة 35%


أصدرت Anthropic اليوم Claude Opus 4.7. السعر لم يتغير (إدخال $5/M، إخراج $25/M)، معرّف الـ API هو claude-opus-4-7، متاح على كل المنصات — منتجات Claude، الـ API، Bedrock، Vertex AI، Microsoft Foundry.

يبدو وكأنه "ترقية مجانية". لكن عند التدقيق، هناك عدة تغييرات تؤثر مباشرة على طريقة عملك. ليست مجرد مسألة تغيير معرّف الموديل.


الرؤية: من "يرى" إلى "قابل للاستخدام"

رؤية Opus 4.6 كانت في خانة "موجودة تقنياً لكنها غير موثوقة" — دقة بصرية 54.5% أقرب إلى رمي عملة معدنية. 4.7 يقفز مباشرة إلى 98.5%، ويرتفع سقف الدقة إلى 2576 بكسل على الضلع الأطول (~3.75 ميغابكسل)، أي 3 أضعاف السابق.

ليس الأمر "أفضل قليلاً"، بل ترقية من لعبة إلى أداة فعلية.

التأثير الفعلي:

  • المخططات التقنية: مخططات المعمارية والتدفق وERعمل يمكن إدخالها مباشرة دون الحاجة إلى وصف يدوي
  • التركيبات الكيميائية: المخططات الجزيئية في الأبحاث تُقرأ مباشرة
  • لقطات الشاشة: موثوقية التعرّف على لقطات UI ولقطات الأخطاء ارتفعت بشكل ملحوظ
  • المستندات الممسوحة: دقة OCR للعقود والفواتير وملفات PDF الممسوحة أصبحت على قاعدة عملية

إذا كنت تلتف حول ضعف الرؤية (بتحويل الصور إلى نص يدوياً قبل إطعامها للموديل)، فقد حان الوقت لإعادة تقييم سير العمل.


اتباع التعليمات: الخبر السار خبر سيئ أيضاً

4.7 حسّن بشكل كبير اتباع التعليمات الحرفية. في السابق كان Claude "يذكاءً" يتخطى التفاصيل التي يعتبرها غير مهمة أو يفسر المتطلبات بشكل فضفاض. الآن ينفذ حرفياً.

الإيجابي: التعليمات المعقدة متعددة الخطوات، متطلبات التنسيق الصارمة، معالجة الحالات الحدودية — كلها أصبحت أكثر موثوقية.

الثمن: prompts القديمة قد تتعطل.

Claude كان سابقاً "يفهم مقصدك" ويتجاوز الصياغة غير الدقيقة. الآن يفعل ما تقوله بالضبط. إن كانت prompts تحتوي عبارات غامضة، أو تعليمات متكررة، أو متطلبات متناقضة — 4.6 ربما كان يسدّ الثغرات، 4.7 لن يفعل.

نصائح الترحيل:

  1. اختبر prompts الحالية أولاً في سيناريوهات منخفضة المخاطر
  2. ركّز على النقاط التي "كان Claude يبدو فيها يخمّن مقصدك"
  3. حوّل التوقعات الضمنية إلى تعليمات صريحة

هذه ترقية "الموديل أصبح أذكى، وعليك أن تصبح أدقّ".


قدرة البرمجة: الأرقام والإحساس

البيانات الرسمية:

المعيار التحسّن
معيار البرمجة لـ 93 مهمة +13%
Rakuten-SWE-Bench (مهام الإنتاج) معدل حل 3 أضعاف
سير العمل متعدد الخطوات +14%، أخطاء أدوات أقل

الـ 3 أضعاف في Rakuten-SWE-Bench هي النقطة الأبرز — هذه مهام بيئة إنتاج فعلية، لا معيار اصطناعي. +14% في سير العمل متعدد الخطوات مع قلة أخطاء الأدوات يعني أن سلاسل المهام الطويلة قفزت درجة كاملة في الموثوقية.

مع تغييرات Claude Code: المستوى الافتراضي للجهد ارتفع من high إلى xhigh الجديد (بين high وmax)، فالموديل يُنفق المزيد من tokens الاستدلال على المهام المعقدة. أمر /ultrareview الجديد يوفر جلسات مخصصة لمراجعة الكود، ومستخدمو Pro وMax يحصلون على 3 مجانية شهرياً.


تغييرات الـ Tokenizer: نفس السعر، tokens أكثر

4.7 حدّث الـ tokenizer. نفس النص المُدخل يتحول الآن إلى حوالي 1.0–1.35 ضعف عدد tokens، حسب نوع المحتوى.

السعر لم يتغير، لكن نفس المُدخل يستهلك tokens أكثر. التكلفة الفعلية قد ترتفع 0–35%.

إن كانت لديك تطبيقات حساسة لميزانية tokens، فأجرِ مقارنة حقيقية بعدد tokens ببيانات حقيقية قبل الترقية. خاصة في سيناريوهات المستندات الطويلة، 35% ليس هامش خطأ.


استدلال المستندات والسيناريوهات القانونية

أخطاء استدلال المستندات انخفضت 21%، دقة BigLaw Bench (المعيار القانوني) 90.9%.

السيناريوهات القانونية كانت دائماً نقطة ضعف LLM — ليس لأن الموديلات "غبية"، بل لأن النص القانوني يطالب بدقة عالية جداً. الفرق بين "أو" و"و" قد يقلب الاستنتاج. 21% انخفاض في الأخطاء تقدم فعلي.

مع تحسّن الرؤية، مراجعة العقود أصبحت سير عمل أكثر جدوى: مستند ممسوح مدخل مباشرة → استخراج البنود → تحليل المخاطر، الموثوقية ارتفعت عبر كامل السلسلة.


الأمان والحدود: مقايضات مقصودة

ملف الأمان مماثل لـ 4.6: معدل خداع منخفض، معدل مجاملة منخفض، مقاومة محسّنة لـ prompt injection.

لكن هناك قيدان مقصودان:

  1. قدرات الأمن السيبراني خُفّضت عمداً: مقارنة بـ Mythos Preview، 4.7 خفّض بنشاط القدرات السيبرانية. الطلبات عالية المخاطر تُكتشف وتُحجب تلقائياً. الباحثون الأمنيون يمكنهم التقدم إلى Cyber Verification Program للحصول على وصول مشروع.

  2. تخفيف الأضرار للمواد الخاضعة للرقابة: نقطة ضعف معترف بها رسمياً — الموديل ليس مثالياً في تقديم معلومات تخفيف الأضرار المتعلقة بالمواد الخاضعة للرقابة.

الصياغة الرسمية: "largely well-aligned and trustworthy, though not fully ideal"، مشيرةً إلى أن Mythos Preview لا يزال أفضل موديل من حيث المحاذاة. 4.7 أجرى مقايضة — أولوية للقدرة العملية، الحفاظ على المحاذاة دون اختراق.


العلاقة مع Mythos Preview

Anthropic تقول صراحة إن Opus 4.7 أقل شمولاً من Mythos Preview، لكنه يتجاوز Opus 4.6 في عدة معايير عملية: مهام المكتب، الرؤية، استدلال المستندات، السياق الطويل، الأحياء، البرمجة، الاتساق طويل المدى.

هذا يلمّح لاستراتيجية منتجات Anthropic: خط Mythos يدفع الحدود (أشمل لكن قد يكون أغلى أو مقيداً)، خط Opus هو حصان العمل (قوي بما يكفي، مستقر، سعر معقول). لأغلب المستخدمين، 4.7 له قيمة عملية أكبر من Mythos Preview.


مصفوفة قرار الترقية

وضعك التوصية
سير عمل معتمد على الرؤية (مخططات، لقطات شاشة، مسح ضوئي) رقّ فوراً، القفزة ضخمة
سلاسل مهام طويلة / سير عمل متعدد الخطوات رقّ، الموثوقية واستخدام الأدوات تحسّنت
مستخدم كثيف لـ Claude Code رقّ، xhigh افتراضي + /ultrareview
تحليل مستندات / قانوني رقّ، الاستدلال والدقة تحسّنا بوضوح
تطبيقات عالية الإنتاجية حساسة لميزانية tokens اختبر أولاً، تغيير tokenizer قد يرفع التكاليف
أنظمة إنتاج تعتمد على prompts كثيرة موجودة اختبر قبل الترقية، تغيير اتباع التعليمات قد يتطلب ضبط prompts
حاجة لقدرات متعلقة بالأمن السيبراني لا ترقّ أو تقدّم، القدرات خُفّضت عمداً

في جملة واحدة

Opus 4.7 ليس ترقية "أكبر وأغلى". إنه ترقية "نفس السعر، لكن نقاط القدرة أُعيد توزيعها". الرؤية واتباع التعليمات الرابحان الأكبران. تغيير tokenizer أكبر تكلفة خفية. شغّل مجموعة اختبار prompts قبل الترقية — وإن لم تكن عندك واحدة، الآن وقت جيد لبنائها.