A Anthropic anunciou o lançamento do Claude Fable 5 esta semana, promovendo-o como o modelo mais capaz da empresa até o momento e o primeiro modelo de IA da classe Mythos amplamente acessível. O anúncio gerou entusiasmo entre desenvolvedores e pesquisadores ansiosos para testar sua prometida capacidade científica. No entanto, dentro de horas, os usuários descobriram uma limitação intrigante: o modelo não responderia a muitas perguntas básicas de biologia.

Quando solicitado com perguntas básicas, como "O que são membranas celulares?" ou "Explique mitocôndrias", o Claude Fable 5 se recusou a responder ou encaminhou o pedido para seu antecessor, Claude Opus 4.8. O modelo mais antigo, ainda poderoso, forneceu as respostas sem hesitação. O mesmo padrão emergiu para consultas sobre príons, mecanismo de vacinas de mRNA, febre do feno, medicamentos para asma, resistência a antibióticos e até a natureza do Ebola. Apenas tópicos mais amplos, como "O que é DNA?" ou "O que é câncer?", receberam uma resposta do Fable.

Um porta-voz da Anthropic, Paruul Maheshwary, explicou que o comportamento é por design. "Fizemos essa escolha para que os clientes pudessem aproveitar as capacidades do modelo mais cedo, sem os riscos", disse Maheshwary ao The Verge. A empresa há muito tempo sinalizou pesquisas de armas biológicas como um caso de uso de alto risco para grandes modelos de linguagem. Para mitigar essa ameaça, a Anthropic aplicou um filtro "excessivamente conservador" a qualquer solicitação que tocasse em biologia, química, cibersegurança ou destilação de modelos.

Na prática, o filtro bloqueia a maioria das solicitações relacionadas à biologia, mesmo aquelas sem intenção maliciosa óbvia. Maheshwary disse que a principal preocupação é que um modelo com as capacidades do Fable poderia acelerar o design de agentes biológicos prejudiciais se deixado sem controle. A empresa espera refinar os classificadores para reduzir falsos positivos — instâncias em que perguntas inofensivas são bloqueadas por engano — enquanto preserva uma forte rede de segurança.

Os guardrails de química e cibersegurança do Claude Fable 5 parecem menos restritivos. O modelo descreveu prontamente a composição do TNT, alertou contra a síntese de explosivos e explicou o uso de gás de cloro como arma química sem fornecer instruções passo a passo. Ele também respondeu a perguntas comuns de segurança de senha e delineou como proteger um iPhone contra hacking. No entanto, quando questionado sobre gás de sarin, o modelo novamente se recusou a responder e encaminhou a solicitação para o Opus, e ambos se recusaram a responder a um pedido solicitando instruções para antraz, pausando a conversa inteiramente.

A estratégia de segurança mais ampla da Anthropic inclui quatro áreas principais de limitação: química, biologia, cibersegurança e destilação — uma técnica que treina modelos menores usando as saídas de modelos maiores. A empresa anteriormente acusou o concorrente chinês DeepSeek de empregar destilação em larga escala em seus modelos, uma alegação que destaca a pressão competitiva para equilibrar abertura com segurança.

Apesar das atuais restrições, a Anthropic sinaliza que as limitações são temporárias. Maheshwary indicou que lançamentos futuros podem relaxar as salvaguardas de biologia para permitir que a comunidade científica utilize o modelo para descoberta de drogas e pesquisas biomédicas. Por enquanto, os usuários que buscam explicações biológicas detalhadas devem confiar no mais antigo Claude Opus 4.8 ou procurar em outro lugar.

O episódio destaca uma tensão crescente na indústria de IA: como entregar ferramentas poderosas e de propósito geral sem empoderar involuntariamente atores maliciosos. A rollout cautelosa do Claude Fable 5 da Anthropic sugere que a empresa está disposta a aceitar compromissos de usabilidade de curto prazo em favor de segurança de longo prazo, uma postura que pode moldar como outros desenvolvedores abordam o deploy de modelos nos meses à frente.

Este artigo foi escrito com a assistência de IA.
News Factory APP - notícias agênticas para impulsionar seu SEO e AEO.