O Fable 5 da Anthropic entrou no mercado em 9 de junho com uma fanfarra que poucos lançamentos de IA têm visto. O modelo, divulgado como um sistema da classe Mythos, ofereceu uma janela de contexto de um milhão de tokens, 128.000 tokens de saída e uma vantagem de desempenho que rapidamente o tornou o principal entrada na leaderboard do Chatbot Arena. Em poucos dias, ele estava superando o GPT-5.5 da OpenAI nos benchmarks de codificação, registrando uma vantagem de 22 pontos no SWE-Bench Pro (80,3% vs. 58,6%) e uma pontuação de 95,0% no subconjunto verificado do SWE-Bench. Na Code Arena, a classificação Elo do Fable 5 de 1.665 superou a classificação de 1.501 do GPT-5.5 por 98 pontos.

A vantagem se estendeu ao benchmark FrontierCode Diamond, onde o Fable 5 alcançou 29,3% versus 5,7% do GPT-5.5. Mesmo a mais ampla Chatbot Arena colocou o Fable 5 em primeiro lugar, empurrando o GPT-5.5 para a quarta posição. A única área onde o GPT-5.5 reduziu a diferença foi o Terminal-Bench 2.0, um teste de tarefas de codificação baseadas em terminal, onde ele marcou 82,7% contra os aproximadamente 88% do Fable 5.

No entanto, o preço inclinou a balança em favor da OpenAI. Os desenvolvedores podiam executar o GPT-5.5 por $5 por milhão de tokens de entrada e $30 por milhão de tokens de saída - metade do custo das taxas de $10 e $50 do Fable 5. Para aplicações de alto volume onde o custo supera os ganhos de desempenho marginais, o modelo mais barato permaneceu a escolha pragmática.

A ascensão rápida do Fable 5 foi interrompida em 12 de junho, quando o Departamento de Comércio dos EUA emitiu uma diretiva de controle de exportação, citando uma vulnerabilidade de jailbreak. A ordem forçou a Anthropic a tirar do ar Fable 5 e a família mais ampla de Mythos-5. A Anthropic argumentou que a vulnerabilidade era menor, já pública e explorável no GPT-5.5 sem técnicas de bypass especiais. Relatórios internos sugerem que o CEO da Amazon, Andy Jassy, desempenhou um papel na solicitação da revisão do governo.

Para os desenvolvedores que haviam começado a avaliar o Fable 5 para cargas de trabalho de produção, o fechamento significou uma mudança repentina para o GPT-5.5 ou os modelos mais antigos da Anthropic, Opus. A degradação de desempenho é acentuada: a diferença de 22 pontos no SWE-Bench Pro se traduz em um modelo que resolve quatro em cada cinco problemas de software reais versus um que lida com aproximadamente três em cada cinco.

A Anthropic abriu negociações com o Departamento de Comércio, mantendo que a classificação de controle de exportação é desproporcional. Até que uma resolução seja alcançada, o GPT-5.5 retém o primeiro lugar no mercado - não porque é o melhor modelo que existe, mas porque seu único rival sério foi removido.

This article was written with the assistance of AI.
News Factory APP - agentic news to boost your SEO & AEO.