Opus 4.7 ya está aquí: visión del 54% al 98%, pero un cambio de tokenizer puede subir costes un 35%
Anthropic lanzó hoy Claude Opus 4.7. Precio sin cambios (entrada $5/M, salida $25/M), identificador de API claude-opus-4-7, disponible en todas las plataformas — productos Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Parece una "actualización gratis". Pero si miras en detalle, hay varios cambios que impactan directamente cómo trabajas. No es solo cambiar el ID del modelo.
La visión de Opus 4.6 entraba en la categoría de "técnicamente presente pero poco fiable" — un 54.5% de precisión visual, básicamente tirar una moneda al aire. 4.7 salta a 98.5% y el límite de resolución sube a 2576px en el lado largo (~3.75 megapíxeles), 3 veces más que antes.
No es "un poco mejor". Es pasar de juguete a herramienta.
Impacto concreto:
Si habías rodeado la debilidad de visión convirtiendo primero las imágenes a texto, es momento de reevaluar el flujo.
4.7 mejoró sustancialmente el seguimiento literal de instrucciones. Antes Claude "inteligentemente" se saltaba detalles que consideraba poco importantes o interpretaba los requisitos de forma laxa. Ahora ejecuta al pie de la letra.
Ventaja: instrucciones multi-paso complejas, formatos estrictos, manejo de casos borde — todo más confiable.
Coste: tus prompts existentes pueden romperse.
Antes Claude "entendía tu intención" y compensaba por fraseos imprecisos. Ahora hace exactamente lo que dices. Si tus prompts tienen frases ambiguas, instrucciones redundantes o requisitos contradictorios — puede que 4.6 te estuviera cubriendo. 4.7 no lo hará.
Recomendaciones de migración:
Es una actualización de "el modelo se volvió más listo, pero tú tienes que volverte más preciso".
Datos oficiales:
| Benchmark | Mejora |
|---|---|
| Benchmark de codificación de 93 tareas | +13% |
| Rakuten-SWE-Bench (tareas de producción) | 3× tasa de resolución |
| Flujos multi-paso | +14%, menos errores de herramientas |
El 3× en Rakuten-SWE-Bench es el titular — son tareas reales de producción, no benchmarks sintéticos. El +14% en flujos multi-paso junto con menos errores de herramientas significa que las cadenas largas de tareas subieron un escalón en fiabilidad.
Combínalo con los cambios en Claude Code: el nivel de esfuerzo por defecto subió de high al nuevo xhigh (entre high y max), así que el modelo invierte más tokens de razonamiento en tareas complejas. El nuevo comando /ultrareview ofrece sesiones dedicadas de revisión de código, y los usuarios Pro y Max tienen 3 gratis al mes.
4.7 actualizó el tokenizer. El mismo texto de entrada ahora se mapea a aproximadamente 1.0–1.35× tokens, dependiendo del tipo de contenido.
El precio no cambió, pero la misma entrada consume más tokens. El coste real puede subir entre 0 y 35%.
Si tienes aplicaciones sensibles al presupuesto de tokens, haz una comparación de conteo con datos reales antes de actualizar. Sobre todo en escenarios de documentos largos, un 35% no es un margen de error.
Errores de razonamiento en documentos -21%. Precisión en BigLaw Bench del 90.9%.
Los escenarios legales siempre fueron un punto débil de los LLM — no porque los modelos sean "tontos", sino porque el texto legal exige precisión extrema. La diferencia entre "o" e "y" puede invertir una conclusión. Un 21% menos de errores es un progreso real.
Combinado con la mejora de visión, la revisión de contratos se vuelve un flujo mucho más viable: escaneo directo → extracción de cláusulas → análisis de riesgos, con fiabilidad en toda la cadena.
El perfil de seguridad se mantiene respecto a 4.6: baja tasa de engaño, baja adulación, mejor resistencia a prompt injection.
Pero dos límites intencionales:
Capacidades de ciberseguridad reducidas deliberadamente: comparado con Mythos Preview, 4.7 rebajó activamente las capacidades cibernéticas. Las solicitudes de alto riesgo se detectan y bloquean automáticamente. Los investigadores de seguridad pueden solicitar acceso legítimo mediante el Cyber Verification Program.
Reducción de daños con sustancias controladas: un punto débil reconocido — el modelo no es óptimo proporcionando información de reducción de daños sobre sustancias controladas.
La formulación oficial es "largely well-aligned and trustworthy, though not fully ideal", señalando que Mythos Preview sigue siendo el modelo mejor alineado. 4.7 hizo un compromiso — priorizar capacidad práctica, mantener alineación sin romper nuevo terreno.
Anthropic dice explícitamente que Opus 4.7 es menos capaz en términos generales que Mythos Preview, pero supera a Opus 4.6 en varios benchmarks prácticos: tareas de oficina, visión, razonamiento sobre documentos, contexto largo, biología, codificación, coherencia de largo plazo.
Esto apunta a la estrategia de producto de Anthropic: la línea Mythos explora fronteras (más capaz pero posiblemente más cara o restringida), la línea Opus es el caballo de trabajo (fuerte, estable, a precio razonable). Para la mayoría de usuarios, 4.7 tiene más valor práctico que Mythos Preview.
| Tu situación | Recomendación |
|---|---|
| Flujos con mucha visión (diagramas, capturas, escaneos) | Actualiza ya, el salto es enorme |
| Cadenas largas / flujos multi-paso | Actualiza, fiabilidad y uso de herramientas mejoraron |
| Usuario intensivo de Claude Code | Actualiza, xhigh por defecto + /ultrareview |
| Análisis de documentos / legal | Actualiza, razonamiento y precisión mejoran claramente |
| Apps de alto volumen sensibles al presupuesto de tokens | Prueba primero, el cambio de tokenizer puede subir costes |
| Sistemas en producción con muchos prompts existentes | Prueba antes de actualizar, el cambio en seguimiento de instrucciones puede requerir ajustes |
| Necesidades de ciberseguridad | No actualices o solicita acceso, capacidades reducidas a propósito |
Opus 4.7 no es una actualización "más grande y más cara". Es una actualización de "mismo precio, puntos de capacidad redistribuidos". Visión y seguimiento de instrucciones son los mayores ganadores. El cambio de tokenizer es el mayor coste oculto. Ejecuta tu suite de pruebas de prompts antes de actualizar — y si no tienes una, ahora es buen momento para construirla.