Opus 4.7 זמין: ראייה קפצה מ-54% ל-98%, אבל שינוי tokenizer עלול להעלות עלויות בשקט ב-35%
Anthropic הוציאה היום את Claude Opus 4.7. המחירים ללא שינוי (קלט $5/M, פלט $25/M), מזהה ה-API הוא claude-opus-4-7, זמין בכל הפלטפורמות — מוצרי Claude, ה-API, Bedrock, Vertex AI, Microsoft Foundry.
נראה כמו "שדרוג חינם". אבל כשחופרים לעומק, יש כמה שינויים שמשפיעים ישירות על צורת העבודה שלך. זה לא סתם החלפת מזהה מודל.
הראייה של Opus 4.6 הייתה בקטגוריית "קיימת טכנית אבל לא אמינה" — 54.5% דיוק ויזואלי, בעצם הטלת מטבע. 4.7 קופץ ישר ל-98.5%, וגבול הרזולוציה עולה ל-2576 פיקסלים בצד הארוך (~3.75 מגה-פיקסל), פי 3 מהקודם.
זה לא "קצת יותר טוב". זה מעבר מצעצוע לכלי עבודה.
השפעה מעשית:
אם עקפת את חולשת הראייה על ידי המרה ידנית של תמונות לטקסט, זה הזמן להעריך מחדש את ה-workflow.
4.7 שיפר משמעותית את הציות להוראות פשוטן. פעם Claude היה "חכם" ומדלג על פרטים שנראו לו לא חשובים או מפרש את הדרישות באופן רופף. עכשיו הוא מבצע לפי האות.
יתרון: הוראות מורכבות רב-שלביות, דרישות פורמט מחמירות, טיפול במקרי קצה — הכל אמין יותר.
מחיר: ה-prompts הקיימים שלך עלולים להישבר.
Claude "הבין את הכוונה שלך" וסגר על ניסוחים לא מדויקים. עכשיו הוא עושה בדיוק מה שאתה אומר. אם ב-prompts שלך יש ניסוחים מעורפלים, הוראות מיותרות או דרישות סותרות — 4.6 אולי היה מכסה, 4.7 לא יכסה.
טיפים להגירה:
זה שדרוג של "המודל נעשה חכם יותר, אז אתה חייב להיות מדויק יותר".
נתונים רשמיים:
| Benchmark | שיפור |
|---|---|
| Benchmark קידוד עם 93 משימות | +13% |
| Rakuten-SWE-Bench (משימות production) | שיעור פתרון פי 3 |
| Workflows רב-שלביים | +14%, פחות שגיאות כלים |
פי 3 ב-Rakuten-SWE-Bench זו הכותרת — אלו משימות אמיתיות של סביבת production, לא benchmark סינתטי. +14% ב-workflows רב-שלביים יחד עם הפחתת שגיאות כלים משמעותה ששרשראות משימות ארוכות עלו דרגה באמינות.
יחד עם שינויי Claude Code: רמת המאמץ ברירת המחדל עלתה מ-high ל-xhigh החדש (בין high ל-max), כלומר המודל משקיע יותר tokens של reasoning במשימות מורכבות. הפקודה החדשה /ultrareview נותנת סשנים ייעודיים לסקירת קוד, משתמשי Pro ו-Max מקבלים 3 חינם בחודש.
4.7 עדכן את ה-tokenizer. אותו טקסט קלט ממפה עכשיו ל-1.0–1.35 פי מספר ה-tokens, בהתאם לסוג התוכן.
המחיר לא השתנה, אבל אותו קלט צורך יותר tokens. העלות בפועל עלולה לעלות ב-0–35%.
אם יש לך אפליקציות רגישות לתקציב tokens, תעשה השוואת ספירת tokens על דאטה אמיתי לפני השדרוג. בתרחישים של מסמכים ארוכים במיוחד, 35% זו לא טעות עיגול.
שגיאות הנמקת מסמכים ירדו ב-21%, דיוק ב-BigLaw Bench (benchmark משפטי) 90.9%.
תרחישים משפטיים תמיד היו נקודת החולשה של LLMs — לא כי המודלים "טיפשים", אלא כי טקסט משפטי דורש דיוק קיצוני. ההבדל בין "או" ו-"ו" יכול להפוך מסקנה. 21% פחות שגיאות זו התקדמות מהותית.
בשילוב עם שיפור הראייה, סקירת חוזים הופכת ל-workflow הרבה יותר ישים: מסמך סרוק ישר בקלט → חילוץ סעיפים → ניתוח סיכונים, אמינות עלתה לאורך כל ה-pipeline.
פרופיל האבטחה דומה ל-4.6: שיעור הונאה נמוך, חנפנות נמוכה, עמידות משופרת ל-prompt injection.
אבל שתי מגבלות מכוונות:
יכולות סייבר הורדו בכוונה: בהשוואה ל-Mythos Preview, 4.7 הוריד באופן פעיל יכולות cyber. בקשות בסיכון גבוה מזוהות ונחסמות אוטומטית. חוקרי אבטחה יכולים להגיש מועמדות ל-Cyber Verification Program לגישה לגיטימית.
הפחתת נזק לחומרים מבוקרים: נקודת חולשה מוכרת רשמית — המודל לא אופטימלי במתן מידע להפחתת נזק על חומרים מבוקרים.
הניסוח הרשמי הוא "largely well-aligned and trustworthy, though not fully ideal", עם ציון ש-Mythos Preview נשאר המודל המיושר ביותר. 4.7 עשה פשרה — עדיפות ליכולת מעשית, שמירה על יישור בלי פריצת דרך.
Anthropic אומרת במפורש ש-Opus 4.7 פחות מקיף מ-Mythos Preview, אבל עובר את Opus 4.6 בכמה benchmarks מעשיים: משימות משרדיות, ראייה, הנמקת מסמכים, קונטקסט ארוך, ביולוגיה, קידוד, קוהרנטיות ארוכת טווח.
זה רומז לאסטרטגיית המוצר של Anthropic: קו Mythos דוחף את הגבול (מקיף יותר אבל כנראה יקר יותר או מוגבל יותר), קו Opus הוא סוס העבודה (מספיק חזק, יציב, במחיר סביר). עבור רוב המשתמשים, ל-4.7 יש יותר ערך מעשי מ-Mythos Preview.
| המצב שלך | המלצה |
|---|---|
| Workflow כבד בראייה (דיאגרמות, צילומי מסך, סריקות) | שדרג עכשיו, הקפיצה עצומה |
| שרשראות משימות ארוכות / workflows רב-שלביים | שדרג, אמינות ושימוש בכלים השתפרו |
| משתמש כבד של Claude Code | שדרג, xhigh ברירת מחדל + /ultrareview |
| ניתוח מסמכים / משפטי | שדרג, הנמקה ודיוק השתפרו בבירור |
| אפליקציות בעלות throughput גבוה ורגישות לתקציב tokens | בדוק קודם, שינוי ה-tokenizer יכול להעלות עלויות |
| מערכות production עם הרבה prompts קיימים | בדוק לפני שדרוג, שינוי בציות להוראות עלול לדרוש כיוונון |
| צרכי סייבר-אבטחה | אל תשדרג או הגש מועמדות, יכולות הורדו בכוונה |
Opus 4.7 הוא לא שדרוג של "גדול יותר, יקר יותר". זה שדרוג של "אותו מחיר, נקודות יכולת חולקו מחדש". ראייה וציות להוראות הם המנצחים הגדולים. שינוי ה-tokenizer הוא העלות הנסתרת הגדולה ביותר. הרץ את סוויטת הבדיקות של ה-prompts שלך לפני שדרוג — ואם אין לך כזו, עכשיו זה זמן טוב לבנות אחת.