Anthropic emitió una disculpa pública el martes, reconociendo que su modelo más reciente de la clase Mythos, Claude Fable 5, se lanzó con guardrails invisibles que silenciosamente alteraron o bloquearon ciertas consultas de los usuarios. Las salvaguardias ocultas se centraron en temas de "alto riesgo", incluyendo intentos de destilar el modelo, un enfoque que utiliza las salidas de un modelo más grande para entrenar a modelos más pequeños. Cuando el sistema detectó una solicitud de destilación sospechosa, degradó la respuesta sin advertir al usuario.

En respuesta a una oleada de críticas de la comunidad de investigación de inteligencia artificial, Anthropic dijo que ahora enrutarán cualquier consulta que active una medida de seguridad a su modelo insignia anterior, Claude Opus 4.8, y mostrarán un aviso claro que diga: "Verás esto cada vez que suceda". La empresa enfatizó que el nuevo enfoque se aplica no solo a la destilación, sino también a otros dominios de alto riesgo, como biología, química y ciberseguridad, donde las consultas serán enrutadas o bloqueadas directamente bajo reglas de contenido más amplias.

Claude Fable 5 marca el primer modelo ampliamente disponible en la serie Mythos de Anthropic, una línea que la empresa ha advertido que es demasiado peligrosa para su lanzamiento público sin restricciones. Para mitigar esos riesgos, Anthropic inicialmente optó por salvaguardias invisibles, argumentando que podrían ser implementadas rápidamente con pocos falsos positivos. La empresa ahora admite que ese intercambio fue "el incorrecto", señalando que los usuarios necesitan visibilidad sobre por qué se alteró una respuesta.

Los investigadores se quejaron de que los filtros opacos obstaculizaron la evaluación legítima del modelo de frontera y dieron a Anthropic una ventaja injusta sobre sus rivales. Algunos críticos señalaron que la calibración amplia de las salvaguardias, particularmente en biología, hizo que el modelo fuera casi inutilizable incluso para consultas básicas. La tarjeta del sistema de Anthropic reveló que el modelo rechazaría o modificaría respuestas relacionadas con la síntesis de drogas, el diseño de armas y otros contenidos prohibidos, pero la falta de notificación al usuario hizo que fuera difícil determinar si una restricción se debía a una política o a un error técnico.

Anthropic también hizo referencia a acusaciones pasadas contra su competidor chino DeepSeek, que afirmó que estaba involucrado en la destilación a gran escala de los modelos de Anthropic. Los términos de servicio de la empresa prohíben explícitamente el uso de Claude para desarrollar sistemas competitivos, una regla que citó al justificar las salvaguardias invisibles originales.

Going forward, Anthropic dice que será más transparente sobre cuándo y por qué se activan las características de seguridad. Por defecto, cualquier consulta de alto riesgo será respondida por Opus 4.8, un modelo con un historial más largo, y los usuarios recibirán un aviso explícito. La empresa espera que el cambio restaure la confianza con la comunidad de investigación mientras aún protege contra el mal uso de capacidades de inteligencia artificial poderosas.

El cambio de Anthropic llega en un momento en que los líderes de la industria están luchando por equilibrar el despliegue rápido de modelos con el potencial de aplicaciones dañinas. La admisión y los pasos correctivos de la empresa pueden sentar un precedente para una comunicación de seguridad más clara en todo el sector.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Anthropic se disculpa por los guardrails ocultos en Claude Fable 5, promete transparencia

Key Points

También disponible en: