Opus 4.7 a fondo: qué actualizar, qué esperar y con qué tener cuidado

Anthropic lanzó hoy Claude Opus 4.7. Precio sin cambios (entrada $5/M, salida $25/M), identificador de API claude-opus-4-7, disponible en todas las plataformas — productos Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Parece una "actualización gratis". Pero si miras en detalle, hay varios cambios que impactan directamente cómo trabajas. No es solo cambiar el ID del modelo.

Visión: de "ver" a "usar"

La visión de Opus 4.6 entraba en la categoría de "técnicamente presente pero poco fiable" — un 54.5% de precisión visual, básicamente tirar una moneda al aire. 4.7 salta a 98.5% y el límite de resolución sube a 2576px en el lado largo (~3.75 megapíxeles), 3 veces más que antes.

No es "un poco mejor". Es pasar de juguete a herramienta.

Impacto concreto:

Diagramas técnicos: diagramas de arquitectura, flujos y ER se pueden meter directamente, sin transcribir a mano
Estructuras químicas: los diagramas moleculares de papers se leen sin problema
Capturas de pantalla: capturas de UI y de errores ganan fiabilidad notable
Documentos escaneados: el OCR sobre contratos, facturas y PDFs escaneados ya tiene una base práctica

Si habías rodeado la debilidad de visión convirtiendo primero las imágenes a texto, es momento de reevaluar el flujo.

Seguimiento de instrucciones: la buena noticia también es mala

4.7 mejoró sustancialmente el seguimiento literal de instrucciones. Antes Claude "inteligentemente" se saltaba detalles que consideraba poco importantes o interpretaba los requisitos de forma laxa. Ahora ejecuta al pie de la letra.

Ventaja: instrucciones multi-paso complejas, formatos estrictos, manejo de casos borde — todo más confiable.

Coste: tus prompts existentes pueden romperse.

Antes Claude "entendía tu intención" y compensaba por fraseos imprecisos. Ahora hace exactamente lo que dices. Si tus prompts tienen frases ambiguas, instrucciones redundantes o requisitos contradictorios — puede que 4.6 te estuviera cubriendo. 4.7 no lo hará.

Recomendaciones de migración:

Prueba primero los prompts existentes en escenarios de bajo riesgo
Revisa sobre todo los sitios donde "Claude parecía estar adivinando tu intención"
Convierte expectativas implícitas en instrucciones explícitas

Es una actualización de "el modelo se volvió más listo, pero tú tienes que volverte más preciso".

Capacidad de codificación: números y sensación

Datos oficiales:

Benchmark	Mejora
Benchmark de codificación de 93 tareas	+13%
Rakuten-SWE-Bench (tareas de producción)	3× tasa de resolución
Flujos multi-paso	+14%, menos errores de herramientas

El 3× en Rakuten-SWE-Bench es el titular — son tareas reales de producción, no benchmarks sintéticos. El +14% en flujos multi-paso junto con menos errores de herramientas significa que las cadenas largas de tareas subieron un escalón en fiabilidad.

Combínalo con los cambios en Claude Code: el nivel de esfuerzo por defecto subió de high al nuevo xhigh (entre high y max), así que el modelo invierte más tokens de razonamiento en tareas complejas. El nuevo comando /ultrareview ofrece sesiones dedicadas de revisión de código, y los usuarios Pro y Max tienen 3 gratis al mes.

Cambios en el tokenizer: mismo precio, más tokens

4.7 actualizó el tokenizer. El mismo texto de entrada ahora se mapea a aproximadamente 1.0–1.35× tokens, dependiendo del tipo de contenido.

El precio no cambió, pero la misma entrada consume más tokens. El coste real puede subir entre 0 y 35%.

Si tienes aplicaciones sensibles al presupuesto de tokens, haz una comparación de conteo con datos reales antes de actualizar. Sobre todo en escenarios de documentos largos, un 35% no es un margen de error.

Razonamiento sobre documentos y escenarios legales

Errores de razonamiento en documentos -21%. Precisión en BigLaw Bench del 90.9%.

Los escenarios legales siempre fueron un punto débil de los LLM — no porque los modelos sean "tontos", sino porque el texto legal exige precisión extrema. La diferencia entre "o" e "y" puede invertir una conclusión. Un 21% menos de errores es un progreso real.

Combinado con la mejora de visión, la revisión de contratos se vuelve un flujo mucho más viable: escaneo directo → extracción de cláusulas → análisis de riesgos, con fiabilidad en toda la cadena.

Seguridad y límites: compromisos deliberados

El perfil de seguridad se mantiene respecto a 4.6: baja tasa de engaño, baja adulación, mejor resistencia a prompt injection.

Pero dos límites intencionales:

Capacidades de ciberseguridad reducidas deliberadamente: comparado con Mythos Preview, 4.7 rebajó activamente las capacidades cibernéticas. Las solicitudes de alto riesgo se detectan y bloquean automáticamente. Los investigadores de seguridad pueden solicitar acceso legítimo mediante el Cyber Verification Program.
Reducción de daños con sustancias controladas: un punto débil reconocido — el modelo no es óptimo proporcionando información de reducción de daños sobre sustancias controladas.

La formulación oficial es "largely well-aligned and trustworthy, though not fully ideal", señalando que Mythos Preview sigue siendo el modelo mejor alineado. 4.7 hizo un compromiso — priorizar capacidad práctica, mantener alineación sin romper nuevo terreno.

Relación con Mythos Preview

Anthropic dice explícitamente que Opus 4.7 es menos capaz en términos generales que Mythos Preview, pero supera a Opus 4.6 en varios benchmarks prácticos: tareas de oficina, visión, razonamiento sobre documentos, contexto largo, biología, codificación, coherencia de largo plazo.

Esto apunta a la estrategia de producto de Anthropic: la línea Mythos explora fronteras (más capaz pero posiblemente más cara o restringida), la línea Opus es el caballo de trabajo (fuerte, estable, a precio razonable). Para la mayoría de usuarios, 4.7 tiene más valor práctico que Mythos Preview.

Matriz de decisión de actualización

Tu situación	Recomendación
Flujos con mucha visión (diagramas, capturas, escaneos)	Actualiza ya, el salto es enorme
Cadenas largas / flujos multi-paso	Actualiza, fiabilidad y uso de herramientas mejoraron
Usuario intensivo de Claude Code	Actualiza, xhigh por defecto + /ultrareview
Análisis de documentos / legal	Actualiza, razonamiento y precisión mejoran claramente
Apps de alto volumen sensibles al presupuesto de tokens	Prueba primero, el cambio de tokenizer puede subir costes
Sistemas en producción con muchos prompts existentes	Prueba antes de actualizar, el cambio en seguimiento de instrucciones puede requerir ajustes
Necesidades de ciberseguridad	No actualices o solicita acceso, capacidades reducidas a propósito

En una línea

Opus 4.7 no es una actualización "más grande y más cara". Es una actualización de "mismo precio, puntos de capacidad redistribuidos". Visión y seguimiento de instrucciones son los mayores ganadores. El cambio de tokenizer es el mayor coste oculto. Ejecuta tu suite de pruebas de prompts antes de actualizar — y si no tienes una, ahora es buen momento para construirla.