A Anthropic anunciou a disponibilidade imediata de Claude Opus 4.8, a mais recente iteração de seu modelo de inteligência artificial de ponta. A empresa afirma que a atualização torna o sistema marcantemente mais honesto e confiável, especialmente em tarefas que exigem ação autônoma. Opus 4.8 é quatro vezes menos provável de deixar passar erros de código em comparação com seu antecessor, Opus 4.7.

O novo modelo é precificado da mesma forma que a versão anterior - $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída - e está sendo implantado em todos os produtos da Anthropic, incluindo a interface web claude.ai, Claude Code e a API pública. Os testes de desempenho mostram ganhos em todo o quadro: o desempenho de codificação agente aumentou de 64,3% para 69,2% no Terminal-Bench 2.1, a razão multidisciplinar melhorou de 54,7% para 57,9% e as pontuações de trabalho de conhecimento subiram de 1.753 para 1.890.

Os testes de alinhamento colocam Opus 4.8 em novos patamares para traços prosociais, como apoio à autonomia do usuário e atuação no melhor interesse do usuário. As taxas de comportamento desalinhado - engano, cooperação inadequada e problemas semelhantes - caíram substancialmente, igualando o desempenho da prévia do Claude Mythos da Anthropic, seu modelo mais alinhado até o momento.

Vários parceiros de empresa já testaram o modelo. A Cognition, fabricante do agente de codificação Devin AI, elogiou Opus 4.8 por uma utilização de ferramentas mais limpa e a resolução de problemas de verbosidade de comentários e chamadas de ferramentas que afetavam Opus 4.7. O Cursor, um editor de código alimentado por IA, registrou melhorias em todos os níveis de esforço em sua avaliação CursorBench. A empresa de tecnologia jurídica Harvey disse que Opus 4.8 alcançou a pontuação mais alta já registrada em seu Benchmark de Agente Jurídico, ultrapassando a barreira de 10% de aprovação pela primeira vez. A Databricks observou um tratamento mais rápido de perguntas multietapas profundas e uma redução de 61% no custo de tokens em comparação com Opus 4.7. A Thomson Reuters’ CoCounsel Legal notou melhor consistência e raciocínio, enquanto a Hebbia destacou uma precisão de citação mais aguçada e eficiência de tokens em tarefas de recuperação de documentos.

Além do lançamento do modelo, a Anthropic introduziu novos recursos visando dar aos desenvolvedores um controle mais fino. Um controle de esforço em claude.ai e Cowork permite que os usuários troquem velocidade por qualidade ajustando a quantidade de computação que o modelo aplica a uma resposta. O Claude Code agora suporta fluxos de trabalho dinâmicos, permitindo que ele planeje o trabalho e lance centenas de subagentes paralelos em uma única sessão - útil para migrações de código em grande escala. A API de Mensagens foi atualizada para aceitar entradas do sistema dentro da matriz de mensagens, permitindo alterações de instruções em meio à tarefa sem quebrar o cache de prompts. O modo rápido para Opus 4.8 executa 2,5 vezes mais rápido do que as versões anteriores e é três vezes mais barato por token.

A Anthropic também antecipou os futuros modelos da classe Mythos, um nível acima de Opus que promete inteligência ainda mais alta. Um grupo limitado de cerca de 50 parceiros - incluindo Apple, Google, Microsoft e Amazon Web Services - já acessou uma prévia por meio do Project Glasswing, descobrindo mais de 10.000 vulnerabilidades de software de alta ou crítica gravidade. A Anthropic afirma que o lançamento mais amplo exigirá salvaguardas de segurança cibernética mais fortes, mas espera tornar os modelos disponíveis em geral dentro de semanas.

O lançamento de Opus 4.8 chega em meio a uma nova onda de financiamento. A Anthropic fechou uma rodada de financiamento da Série H no valor de $65 bilhões, impulsionando sua valorização pós-dinheiro para $965 bilhões, um aumento acentuado em relação à valorização de $380 bilhões em sua rodada da Série G em fevereiro. A receita, de acordo com a empresa, cresceu de cerca de $1 bilhão no final de 2024 para uma taxa de crescimento anualizada estimada em $30 bilhões em 2026, impulsionada principalmente pela adoção de empresa do Claude.

Geograficamente, a empresa expandiu sua presença com um novo escritório em Milão, sua sexta localização europeia, e nomeou KiYoung Choi como Diretor Representante da Coreia antes de um lançamento planejado em Seul. As movimentações refletem a crescente demanda por Claude fora dos Estados Unidos.

O upgrade da Anthropic chega em um mercado de inteligência artificial de fronteira fortemente competitivo. A OpenAI recentemente lançou o GPT-5.5, seu primeiro modelo base totalmente retreinado desde o GPT-4.5, enquanto também lançou o GPT-5.4, que estabeleceu novos recordes de benchmark profissional no início deste ano. O Google, um grande investidor na Anthropic com até $40 bilhões comprometidos, continua desenvolvendo sua série Gemini. A corrida agora centra-se em três gigantes - Anthropic, OpenAI e Google - cada um impulsionando melhorias incrementais de modelo a um ritmo acelerado.

Para a Anthropic, o foco está mudando da capacidade raw para a confiabilidade. Um modelo que se autodetecta erros, sinaliza incerteza e segue instruções consistentemente é uma ferramenta mais prática para fluxos de trabalho agentes onde os humanos não podem supervisionar todas as ações. Se os futuros modelos Mythos podem preservar essa confiabilidade enquanto entregam inteligência mais alta será um teste-chave da estratégia da Anthropic para permanecer à frente no arena de inteligência artificial de empresa.

Este artigo foi escrito com a assistência de IA.
News Factory SEO ajuda você a automatizar conteúdo de notícias para o seu site.