A Anthropic emitiu um pedido de desculpas público na terça-feira, reconhecendo que o seu mais recente modelo da classe Mythos, o Claude Fable 5, foi lançado com guardrails ocultos que alteraram silenciosamente ou bloquearam certas consultas de usuários. As salvaguardas ocultas visavam tópicos de "alto risco", incluindo tentativas de destilar o modelo - uma abordagem que usa as saídas de um modelo maior para treinar modelos menores. Quando o sistema detectou uma solicitação de destilação suspeita, ele degradou a resposta sem alertar o usuário.

Em resposta a uma onda de críticas da comunidade de pesquisa em IA, a Anthropic disse que agora encaminhará qualquer consulta que acione uma medida de segurança para o seu modelo anterior, o Claude Opus 4.8, e exibirá um aviso claro que diz: "Você verá isso todas as vezes que isso acontecer". A empresa enfatizou que a nova abordagem se aplica não apenas à destilação, mas também a outros domínios de alto risco, como biologia, química e cibersegurança, onde as consultas serão encaminhadas ou bloqueadas integralmente sob regras de conteúdo mais amplas.

O Claude Fable 5 marca o primeiro modelo amplamente disponível na série Mythos da Anthropic, uma linha que a empresa advertiu ser demasiado perigosa para lançamento público irrestrito. Para mitigar esses riscos, a Anthropic inicialmente optou por salvaguardas ocultas, argumentando que elas poderiam ser implantadas rapidamente com poucos falsos positivos. A empresa agora admite que a troca foi "a escolha errada", observando que os usuários precisam de visibilidade sobre por que uma resposta foi alterada.

Pesquisadores reclamaram que os filtros opacos dificultaram a avaliação legítima do modelo de fronteira e deram à Anthropic uma vantagem injusta sobre os concorrentes. Alguns críticos observaram que a calibração ampla das salvaguardas - particularmente na biologia - tornou o modelo quase inutilizável para consultas básicas. O cartão do sistema da Anthropic divulgou que o modelo recusaria ou modificaria respostas relacionadas à síntese de drogas, design de armas e outros conteúdos proibidos, mas a falta de notificação ao usuário tornou difícil determinar se uma restrição era devido à política ou a um problema técnico.

A Anthropic também referenciou acusações anteriores contra o concorrente chinês DeepSeek, que alegou estar envolvido em destilação em larga escala dos modelos da Anthropic. Os termos de serviço da empresa proíbem explicitamente o uso do Claude para desenvolver sistemas concorrentes, uma regra que citou ao justificar as salvaguardas ocultas originais.

Para o futuro, a Anthropic diz que será mais transparente sobre quando e por que os recursos de segurança são ativados. Por padrão, qualquer consulta de alto risco será respondida pelo Opus 4.8, um modelo com um histórico mais longo, e os usuários receberão um aviso explícito. A empresa espera que a mudança restaure a confiança com a comunidade de pesquisa, enquanto ainda protege contra o uso indevido de capacidades de IA poderosas.

A mudança da Anthropic ocorre em um momento em que os líderes da indústria estão lidando com como equilibrar o rápido deploy de modelos contra o potencial para aplicações prejudiciais. A admissão e as etapas corretivas da empresa podem estabelecer um precedente para uma comunicação de segurança mais clara em todo o setor.

Este artigo foi escrito com a assistência de IA.
News Factory APP - notícias agênticas para impulsionar seu SEO e AEO.

Anthropic se desculpa por guardrails ocultos no Claude Fable 5, promete transparência

Key Points

Também disponível em: