Opus 4.7 chegou: visão sobe de 54% para 98%, mas mudança no tokenizer pode subir custos em 35%
A Anthropic lançou o Claude Opus 4.7 hoje. Preço sem mudança (entrada $5/M, saída $25/M), identificador da API claude-opus-4-7, disponível em todas as plataformas — produtos Claude, API, Bedrock, Vertex AI, Microsoft Foundry.
Parece uma "atualização grátis". Mas quando você olha mais de perto, tem várias mudanças que afetam direto como você trabalha. Não é só trocar o ID do modelo.
A visão do Opus 4.6 estava na faixa de "tecnicamente existe, mas não é confiável" — 54.5% de acurácia visual é basicamente jogar uma moeda. O 4.7 salta para 98.5%, e o limite de resolução sobe para 2576px no lado maior (~3.75 megapixels), 3 vezes mais que antes.
Não é "um pouco melhor". É brinquedo virando ferramenta.
Impacto concreto:
Se você estava contornando a fraqueza de visão convertendo imagens para texto primeiro, é hora de reavaliar o workflow.
O 4.7 melhorou muito o cumprimento literal de instruções. Antes o Claude "inteligentemente" pulava detalhes que ele achava pouco importantes ou interpretava requisitos de forma frouxa. Agora ele executa ao pé da letra.
Vantagem: instruções complexas de múltiplos passos, formatos estritos, tratamento de casos limite — tudo mais confiável.
Custo: seus prompts existentes podem quebrar.
Antes o Claude "entendia sua intenção" e ignorava frases imprecisas. Agora faz exatamente o que você diz. Se seus prompts têm frases ambíguas, instruções redundantes ou requisitos contraditórios — o 4.6 talvez estivesse te cobrindo, o 4.7 não vai.
Dicas de migração:
É uma atualização do tipo "o modelo ficou mais esperto, então você precisa ficar mais preciso".
Dados oficiais:
| Benchmark | Melhoria |
|---|---|
| Benchmark de codificação de 93 tarefas | +13% |
| Rakuten-SWE-Bench (tarefas de produção) | 3× taxa de resolução |
| Fluxos multi-passo | +14%, menos erros de ferramenta |
O 3× no Rakuten-SWE-Bench é o destaque — são tarefas reais de produção, não benchmarks sintéticos. O +14% em fluxos multi-passo junto com menos erros de ferramenta significa que cadeias longas de tarefas subiram um degrau em confiabilidade.
Combinado com as mudanças do Claude Code: o nível de esforço padrão subiu de high para o novo xhigh (entre high e max), então o modelo gasta mais tokens de raciocínio em tarefas complexas. O novo comando /ultrareview dá sessões dedicadas de revisão de código, e usuários Pro e Max têm 3 grátis por mês.
O 4.7 atualizou o tokenizer. O mesmo texto de entrada agora mapeia para cerca de 1.0–1.35× a quantidade de tokens, dependendo do tipo de conteúdo.
O preço não mudou, mas a mesma entrada consome mais tokens. O custo real pode subir de 0 a 35%.
Se você tem aplicações sensíveis a orçamento de tokens, faça uma comparação de contagem com dados reais antes de atualizar. Em cenários de documentos longos principalmente, 35% não é margem de erro.
Erros de raciocínio em documentos -21%. Acurácia no BigLaw Bench de 90.9%.
Cenários jurídicos sempre foram ponto fraco dos LLMs — não porque os modelos sejam "burros", mas porque texto jurídico exige precisão extrema. A diferença entre "ou" e "e" pode inverter uma conclusão. 21% menos erros é progresso real.
Combinado com a melhoria de visão, revisão de contratos vira um workflow bem mais viável: escaneado direto → extração de cláusulas → análise de risco, com confiabilidade em toda a cadeia.
Perfil de segurança similar ao 4.6: baixa taxa de engano, baixa bajulação, melhor resistência a prompt injection.
Mas dois limites intencionais:
Capacidades de cibersegurança reduzidas deliberadamente: comparado ao Mythos Preview, o 4.7 diminuiu ativamente capacidades cyber. Requisições de alto risco são detectadas e bloqueadas automaticamente. Pesquisadores de segurança podem se inscrever no Cyber Verification Program para acesso legítimo.
Redução de danos com substâncias controladas: ponto fraco reconhecido — o modelo não é ideal fornecendo info de redução de danos sobre substâncias controladas.
A formulação oficial é "largely well-aligned and trustworthy, though not fully ideal", apontando que o Mythos Preview continua sendo o modelo mais bem alinhado. O 4.7 fez uma troca — priorizar capacidade prática, manter alinhamento sem quebrar novo território.
A Anthropic diz explicitamente que o Opus 4.7 é menos capaz em geral que o Mythos Preview, mas supera o Opus 4.6 em vários benchmarks práticos: tarefas de escritório, visão, raciocínio sobre documentos, contexto longo, biologia, código, coerência de longo prazo.
Isso aponta pra estratégia de produto da Anthropic: a linha Mythos empurra a fronteira (mais capaz, mas possivelmente mais cara ou restrita), a linha Opus é o cavalo de batalha (forte, estável, preço razoável). Para a maioria dos usuários, o 4.7 tem mais valor prático que o Mythos Preview.
| Sua situação | Recomendação |
|---|---|
| Fluxos com muita visão (diagramas, capturas, escaneados) | Atualize já, o salto é enorme |
| Cadeias longas / fluxos multi-passo | Atualize, confiabilidade e uso de ferramentas melhoraram |
| Usuário pesado de Claude Code | Atualize, xhigh padrão + /ultrareview |
| Análise de documentos / jurídico | Atualize, raciocínio e precisão melhoram bem |
| Apps de alta taxa sensíveis a orçamento de tokens | Teste primeiro, mudança no tokenizer pode subir custos |
| Sistemas em produção com muitos prompts existentes | Teste antes de atualizar, mudança no cumprimento de instruções pode exigir ajustes |
| Necessidades em cibersegurança | Não atualize ou peça acesso, capacidades reduzidas de propósito |
O Opus 4.7 não é uma atualização "maior e mais cara". É uma atualização de "mesmo preço, pontos de capacidade redistribuídos". Visão e cumprimento de instruções são os maiores ganhadores. A mudança de tokenizer é o maior custo escondido. Rode sua suíte de testes de prompts antes de atualizar — e se não tem uma, agora é bom momento pra montar.