Anthropic lanzó Claude Fable 5 el martes, posicionando el modelo como el primero en su línea de clase "Mythos". La empresa afirma que el nuevo sistema supera a su serie Opus anterior en capacidad general, ofreciendo un rendimiento más fuerte en una serie de benchmarks, incluyendo un salto notable en tareas relacionadas con la ciberseguridad.

A diferencia de la versión de preview limitada de Mythos 5, que permanece confinada a un grupo vetado de ciberdefensores a través del Proyecto Glasswing, Fable 5 está disponible públicamente. Esa accesibilidad viene con una suite de salvaguardas basadas en temas. El modelo está programado para rechazar o redirigir cualquier consulta que toque ciberseguridad, biología o química—áreas donde Anthropic teme que la tecnología podría ser utilizada para fines maliciosos.

Cómo funcionan las salvaguardas

Cuando un usuario formula una pregunta prohibida, Fable 5 automáticamente ruta la solicitud al modelo Claude Opus 4.8 más antiguo y presenta una advertencia de que el contenido ha sido filtrado. Anthropic describe los filtros como "más estrictos de lo ideal", reconociendo que a veces bloquean solicitudes inofensivas. Las pruebas internas muestran que estas negaciones falsas positivas ocurren en menos del cinco por ciento de todas las sesiones, una tasa que la empresa acepta para evitar que el modelo proporcione asistencia de "daño grave" que estaría disponible en otra parte.

El sistema de protección se basa en una red de clasificadores que detectan tanto temas prohibidos como intentos potenciales de jailbreak. Más de 1.000 horas de pruebas de equipo rojo, complementadas por un programa de recompensa por errores, no lograron descubrir ningún jailbreak universal que pudiera eludir las salvaguardas. Los intentos automatizados de jailbreak también encontraron mucha más resistencia que en las versiones anteriores de Claude Opus.

La principal preocupación de Anthropic se centra en la capacidad del modelo Mythos 5 para realizar "hacking agente"—la capacidad de orquestar ciberataques multietapa con entrada humana mínima. Aunque Mythos 5 permanece en preview, las pruebas independientes del Instituto de Seguridad de la Inteligencia Artificial del Reino Unido encontraron que su rendimiento en desafíos de Captura de la Bandera es comparable al de OpenAI's GPT-5.5, lo que sugiere que las capacidades del modelo no son un avance singular, sino parte de una tendencia más amplia de la industria.

Al integrar estos filtros en un sistema lanzado públicamente, Anthropic espera establecer un precedente para la implementación responsable de la inteligencia artificial. La empresa argumenta que la modesta incomodidad de las negaciones falsas ocasionales está superada por la mitigación del riesgo lograda, especialmente a medida que los modelos de lenguaje grande se vuelven cada vez más hábiles para generar código, explicaciones científicas y otro contenido que podría ser utilizado como arma.

Los observadores de la industria señalan que el enfoque de Anthropic refleja un creciente énfasis en las capas de seguridad en todo el sector de la inteligencia artificial. Aunque los críticos pueden argumentar que el bloqueo excesivamente agresivo podría obstaculizar la investigación legítima, los datos de Anthropic—menos del cinco por ciento de falsos positivos y no hay jailbreaks universales en pruebas extensivas—proporcionan una base concreta para evaluar el compromiso entre accesibilidad y seguridad.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Anthropic presenta Claude Fable 5 con salvaguardas reforzadas sobre consultas de ciberseguridad, biología y química

Key Points

Cómo funcionan las salvaguardas

También disponible en: