A Anthropic lançou o Claude Fable 5 na terça-feira, posicionando o modelo como o primeiro de sua linha de classe "Mythos". A empresa afirma que o novo sistema supera sua série anterior Opus em termos de capacidade geral, oferecendo um desempenho mais forte em uma variedade de benchmarks, incluindo um salto notável em tarefas relacionadas à cibersegurança.

Diferentemente do preview limitado do Mythos 5, que permanece confinado a um grupo vetado de defensores cibernéticos via Project Glasswing, o Fable 5 está disponível publicamente. Essa acessibilidade vem com uma série de salvaguardas baseadas em tópicos. O modelo é programado para recusar ou redirecionar qualquer consulta que toque em cibersegurança, biologia ou química — áreas onde a Anthropic teme que a tecnologia possa ser utilizada para fins mal-intencionados.

Como as salvaguardas funcionam

Quando um usuário faz uma pergunta proibida, o Fable 5 automaticamente redireciona a solicitação para o modelo Claude Opus 4.8 mais antigo e apresenta um aviso de que o conteúdo foi filtrado. A Anthropic descreve os filtros como "mais rigorosos do que o ideal", reconhecendo que eles às vezes bloqueiam solicitações inofensivas. Testes internos mostram que essas recusas falsas-positivas ocorrem em menos de cinco por cento de todas as sessões, uma taxa que a empresa aceita para evitar que o modelo forneça assistência para "danos graves" que estariam indisponíveis em outros lugares.

O sistema de proteção depende de uma rede de classificadores que detectam tanto tópicos proibidos quanto tentativas de jailbreak potenciais. Mais de 1.000 horas de testes de equipe vermelha, suplementados por um programa de recompensa por bugs, não conseguiram descobrir nenhum jailbreak universal que pudesse contornar as salvaguardas. Tentativas automatizadas de jailbreak também encontraram uma resistência muito maior do que nos lançamentos anteriores do Claude Opus.

A principal preocupação da Anthropic gira em torno da capacidade do modelo Mythos 5 de "hacking agente" — a capacidade de orquestrar ataques cibernéticos multi-etapa com entrada humana mínima. Embora o Mythos 5 permaneça em preview, testes independentes realizados pelo Instituto de Segurança de IA do Reino Unido encontraram seu desempenho em desafios de Capture-the-Flag comparável ao do GPT-5.5 da OpenAI, sugerindo que as capacidades do modelo não são uma quebra singular, mas parte de uma tendência mais ampla da indústria.

Ao incorporar esses filtros em um sistema lançado publicamente, a Anthropic espera estabelecer um precedente para o deploy responsável de IA. A empresa argumenta que o incômodo modesto de recusas falsas ocasionais é superado pela mitigação de riscos alcançada, especialmente à medida que os grandes modelos de linguagem se tornam cada vez mais capazes de gerar código, explicações científicas e outros conteúdos que poderiam ser armados.

Observadores da indústria notam que a abordagem da Anthropic reflete uma ênfase crescente em camadas de segurança em todo o setor de IA. Embora críticos possam argumentar que o bloqueio excessivamente agressivo poderia impedir pesquisas legítimas, os dados da Anthropic — menos de cinco por cento de falsos-positivos e nenhum jailbreak universal em testes extensivos — fornecem uma linha de base concreta para avaliar o compromisso entre acessibilidade e segurança.

Este artigo foi escrito com a assistência de IA.
News Factory APP - notícias agênticas para impulsionar seu SEO e AEO.

Anthropic lança Claude Fable 5 com salvaguardas reforçadas em consultas de cibersegurança, biologia e química

Key Points

Como as salvaguardas funcionam

Também disponível em: