A Anthropic anunciou na sexta-feira que está abandonando uma salvaguarda oculta construída em seu modelo Claude Fable 5 mais recente, que reduziria silenciosamente as capacidades do sistema para usuários que tentam treinar modelos de IA concorrentes. A decisão vem após uma onda de críticas de pesquisadores que disseram que a degradação oculta equivalia a sabotagem de trabalho de IA legítimo.

O Claude Fable 5, lançado no início da semana, foi comercializado como uma versão mais poderosa do modelo de linguagem de bandeira da Anthropic, com guardrails de segurança adicionais. Esses guardrails incluíam redirecionar perguntas sobre cibersegurança, biologia ou química para um modelo menos capaz, uma medida destinada a impedir o uso indevido, como ataques cibernéticos ou design de armas biológicas.

Além desses controles esperados, a Anthropic havia planejado um segundo nível de proteção destinado ao "desenvolvimento de LLM de fronteira". A empresa degradaria silenciosamente a saída do modelo quando detectasse tentativas de usar o Claude para construir sistemas de IA avançados - uma prática explicitamente proibida em seus termos de serviço. Os usuários não receberiam nenhuma notificação de que sua solicitação havia sido reduzida ou redirecionada.

A política oculta gerou uma reação imediata. Pesquisadores argumentaram que reduzir silenciosamente o desempenho sem aviso subverte a transparência e prejudica a pesquisa de IA de código aberto. Dean Ball, um fellow sênior da Fundação para a Inovação Americana e ex-conselheiro de IA da Casa Branca, chamou a abordagem de "chocantemente hostil" em uma postagem no X. Will Brown, líder de pesquisa da startup de código aberto Prime Intellect, comparou a medida a "puxar a escada para cima", alertando que poderia concentrar o avanço da IA nas mãos de alguns grandes laboratórios.

Em resposta, a Anthropic emitiu uma declaração para a WIRED: "Fizemos a troca errada e pedimos desculpas por não ter acertado o equilíbrio". A empresa disse que agora tornará as salvaguardas para o desenvolvimento de IA visíveis. Se uma solicitação for marcada como tentativa de construir um modelo altamente capaz, o Claude recusará a solicitação ou redirecionará o usuário para uma versão menos capaz, e o usuário será notificado da ação.

A liderança da Anthropic explicou que as salvaguardas ocultas originais foram destinadas a proteger contra adversários estrangeiros e a dar aos EUA e aos seus aliados uma vantagem estratégica na tecnologia de fronteira de chips. Ao tornar os controles menos opacos, a empresa reconhece que uma rede mais ampla de solicitações benignas pode ativar as salvaguardas, mas planeja melhorar a precisão do classificador para reduzir falsos positivos.

A reversão marca uma mudança significativa na abordagem da Anthropic em relação à segurança da IA. Embora a empresa mantenha que algum nível de restrição é necessário para prevenir o uso indevido, agora enfatiza a transparência e a colaboração com a comunidade de pesquisa. O episódio destaca o delicado equilíbrio que as empresas de tecnologia devem manter entre salvaguardar modelos poderosos e fomentar um ambiente aberto para a inovação.

Este artigo foi escrito com a assistência de IA.
News Factory APP - notícias agênticas para impulsionar seu SEO e AEO.

Anthropic Reverte Política de Salvaguarda Oculta no Claude Fable 5 Após Críticas de Pesquisadores

Key Points

Também disponível em: