Opus 4.7 em detalhes: o que atualizar, o que esperar e com o que tomar cuidado

A Anthropic lançou o Claude Opus 4.7 hoje. Preço sem mudança (entrada $5/M, saída $25/M), identificador da API claude-opus-4-7, disponível em todas as plataformas — produtos Claude, API, Bedrock, Vertex AI, Microsoft Foundry.

Parece uma "atualização grátis". Mas quando você olha mais de perto, tem várias mudanças que afetam direto como você trabalha. Não é só trocar o ID do modelo.

Visão: de "enxerga" para "dá para usar"

A visão do Opus 4.6 estava na faixa de "tecnicamente existe, mas não é confiável" — 54.5% de acurácia visual é basicamente jogar uma moeda. O 4.7 salta para 98.5%, e o limite de resolução sobe para 2576px no lado maior (~3.75 megapixels), 3 vezes mais que antes.

Não é "um pouco melhor". É brinquedo virando ferramenta.

Impacto concreto:

Diagramas técnicos: diagramas de arquitetura, fluxos e ER podem ser jogados direto, sem transcrever manualmente
Estruturas químicas: diagramas moleculares de papers podem ser lidos direto
Capturas de tela: reconhecimento de capturas de UI e de erro fica bem mais confiável
Documentos escaneados: OCR em contratos, notas fiscais e PDFs escaneados agora tem base prática

Se você estava contornando a fraqueza de visão convertendo imagens para texto primeiro, é hora de reavaliar o workflow.

Seguir instruções: a boa notícia também é a ruim

O 4.7 melhorou muito o cumprimento literal de instruções. Antes o Claude "inteligentemente" pulava detalhes que ele achava pouco importantes ou interpretava requisitos de forma frouxa. Agora ele executa ao pé da letra.

Vantagem: instruções complexas de múltiplos passos, formatos estritos, tratamento de casos limite — tudo mais confiável.

Custo: seus prompts existentes podem quebrar.

Antes o Claude "entendia sua intenção" e ignorava frases imprecisas. Agora faz exatamente o que você diz. Se seus prompts têm frases ambíguas, instruções redundantes ou requisitos contraditórios — o 4.6 talvez estivesse te cobrindo, o 4.7 não vai.

Dicas de migração:

Teste primeiro os prompts existentes em cenários de baixo risco
Revise em especial os pontos onde "o Claude parecia estar adivinhando sua intenção"
Transforme expectativas implícitas em instruções explícitas

É uma atualização do tipo "o modelo ficou mais esperto, então você precisa ficar mais preciso".

Capacidade de código: números e sensação

Dados oficiais:

Benchmark	Melhoria
Benchmark de codificação de 93 tarefas	+13%
Rakuten-SWE-Bench (tarefas de produção)	3× taxa de resolução
Fluxos multi-passo	+14%, menos erros de ferramenta

O 3× no Rakuten-SWE-Bench é o destaque — são tarefas reais de produção, não benchmarks sintéticos. O +14% em fluxos multi-passo junto com menos erros de ferramenta significa que cadeias longas de tarefas subiram um degrau em confiabilidade.

Combinado com as mudanças do Claude Code: o nível de esforço padrão subiu de high para o novo xhigh (entre high e max), então o modelo gasta mais tokens de raciocínio em tarefas complexas. O novo comando /ultrareview dá sessões dedicadas de revisão de código, e usuários Pro e Max têm 3 grátis por mês.

Mudanças no tokenizer: mesmo preço, mais tokens

O 4.7 atualizou o tokenizer. O mesmo texto de entrada agora mapeia para cerca de 1.0–1.35× a quantidade de tokens, dependendo do tipo de conteúdo.

O preço não mudou, mas a mesma entrada consome mais tokens. O custo real pode subir de 0 a 35%.

Se você tem aplicações sensíveis a orçamento de tokens, faça uma comparação de contagem com dados reais antes de atualizar. Em cenários de documentos longos principalmente, 35% não é margem de erro.

Raciocínio sobre documentos e cenários jurídicos

Erros de raciocínio em documentos -21%. Acurácia no BigLaw Bench de 90.9%.

Cenários jurídicos sempre foram ponto fraco dos LLMs — não porque os modelos sejam "burros", mas porque texto jurídico exige precisão extrema. A diferença entre "ou" e "e" pode inverter uma conclusão. 21% menos erros é progresso real.

Combinado com a melhoria de visão, revisão de contratos vira um workflow bem mais viável: escaneado direto → extração de cláusulas → análise de risco, com confiabilidade em toda a cadeia.

Segurança e limites: trade-offs deliberados

Perfil de segurança similar ao 4.6: baixa taxa de engano, baixa bajulação, melhor resistência a prompt injection.

Mas dois limites intencionais:

Capacidades de cibersegurança reduzidas deliberadamente: comparado ao Mythos Preview, o 4.7 diminuiu ativamente capacidades cyber. Requisições de alto risco são detectadas e bloqueadas automaticamente. Pesquisadores de segurança podem se inscrever no Cyber Verification Program para acesso legítimo.
Redução de danos com substâncias controladas: ponto fraco reconhecido — o modelo não é ideal fornecendo info de redução de danos sobre substâncias controladas.

A formulação oficial é "largely well-aligned and trustworthy, though not fully ideal", apontando que o Mythos Preview continua sendo o modelo mais bem alinhado. O 4.7 fez uma troca — priorizar capacidade prática, manter alinhamento sem quebrar novo território.

Relação com o Mythos Preview

A Anthropic diz explicitamente que o Opus 4.7 é menos capaz em geral que o Mythos Preview, mas supera o Opus 4.6 em vários benchmarks práticos: tarefas de escritório, visão, raciocínio sobre documentos, contexto longo, biologia, código, coerência de longo prazo.

Isso aponta pra estratégia de produto da Anthropic: a linha Mythos empurra a fronteira (mais capaz, mas possivelmente mais cara ou restrita), a linha Opus é o cavalo de batalha (forte, estável, preço razoável). Para a maioria dos usuários, o 4.7 tem mais valor prático que o Mythos Preview.

Matriz de decisão de atualização

Sua situação	Recomendação
Fluxos com muita visão (diagramas, capturas, escaneados)	Atualize já, o salto é enorme
Cadeias longas / fluxos multi-passo	Atualize, confiabilidade e uso de ferramentas melhoraram
Usuário pesado de Claude Code	Atualize, xhigh padrão + /ultrareview
Análise de documentos / jurídico	Atualize, raciocínio e precisão melhoram bem
Apps de alta taxa sensíveis a orçamento de tokens	Teste primeiro, mudança no tokenizer pode subir custos
Sistemas em produção com muitos prompts existentes	Teste antes de atualizar, mudança no cumprimento de instruções pode exigir ajustes
Necessidades em cibersegurança	Não atualize ou peça acesso, capacidades reduzidas de propósito

Em uma linha

O Opus 4.7 não é uma atualização "maior e mais cara". É uma atualização de "mesmo preço, pontos de capacidade redistribuídos". Visão e cumprimento de instruções são os maiores ganhadores. A mudança de tokenizer é o maior custo escondido. Rode sua suíte de testes de prompts antes de atualizar — e se não tem uma, agora é bom momento pra montar.