Anthropic anunció el lanzamiento de Claude Fable 5 esta semana, promocionándolo como el modelo más capaz de la empresa hasta la fecha y el primer modelo de IA de clase Mythos ampliamente accesible. El anuncio generó entusiasmo entre los desarrolladores y los investigadores ansiosos por probar su prometida capacidad científica. Sin embargo, dentro de horas, los usuarios descubrieron una limitación desconcertante: el modelo no respondería a muchas preguntas básicas de biología.
Al ser solicitado con conceptos básicos como "¿Qué son las membranas celulares?" o "Explica las mitocondrias", Claude Fable 5 se negó rotundamente o pasó la solicitud a su predecesor, Claude Opus 4.8. El modelo más antiguo, aún poderoso, proporcionó las respuestas sin hesitación. El mismo patrón se repitió para consultas sobre priones, el mecanismo de las vacunas de mRNA, la fiebre del heno, la medicación para el asma, la resistencia a los antibióticos e incluso la naturaleza del Ébola. Solo los temas más amplios, como "¿Qué es el ADN?" o "¿Qué es el cáncer?", recibieron una respuesta de Fable.
El portavoz de Anthropic, Paruul Maheshwary, explicó que el comportamiento es intencional. "Hicimos este intercambio para que los clientes pudieran beneficiarse de las capacidades del modelo antes sin los riesgos", dijo Maheshwary a The Verge. La empresa ha señalado durante mucho tiempo la investigación de armas biológicas como un caso de uso de alto riesgo para los grandes modelos de lenguaje. Para mitigar esa amenaza, Anthropic aplicó un filtro "excesivamente conservador" a cualquier solicitud que tocara la biología, la química, la ciberseguridad o la destilación de modelos.
En la práctica, el filtro bloquea la mayoría de las solicitudes relacionadas con la biología, incluso aquellas que no tienen una intención maliciosa obvia. Maheshwary dijo que la principal preocupación es que un modelo con las capacidades de Fable podría acelerar el diseño de agentes biológicos dañinos si se deja sin control. La empresa espera refinar los clasificadores para reducir los falsos positivos, instancias en las que se bloquean preguntas inofensivas por error, mientras se mantiene una red de seguridad sólida.
Los guardrails de química y ciberseguridad de Claude Fable 5 parecen menos restrictivos. El modelo describió fácilmente la composición del TNT, advirtió sobre la síntesis de explosivos y explicó el uso del gas cloro como un arma química sin proporcionar instrucciones paso a paso. También respondió a preguntas comunes de seguridad de contraseñas y describió cómo proteger un iPhone contra el hacking. Sin embargo, cuando se le preguntó sobre el gas sarín, el modelo nuevamente se refirió a Opus, y ambos se negaron a una solicitud que pedía instrucciones para el ántrax, pausando la conversación por completo.
La estrategia de seguridad más amplia de Anthropic incluye cuatro áreas clave de control: química, biología, ciberseguridad y destilación, una técnica que entrena modelos más pequeños utilizando las salidas de modelos más grandes. La empresa ha acusado previamente a su competidor chino DeepSeek de emplear la destilación a escala industrial en sus modelos, una afirmación que subraya la presión competitiva para equilibrar la apertura con la seguridad.
A pesar de las restricciones actuales, Anthropic señala que las restricciones son temporales. Maheshwary indicó que las versiones futuras pueden aflojar las salvaguardias de biología para permitir que la comunidad científica aproveche el modelo para el descubrimiento de fármacos y la investigación biomédica. Por ahora, los usuarios que buscan explicaciones biológicas detalladas deben depender del modelo más antiguo Claude Opus 4.8 o buscar en otro lugar.
El episodio destaca una creciente tensión en la industria de la IA: cómo entregar herramientas generales poderosas sin empoderar involuntariamente a actores maliciosos. La cautelosa implementación de Claude Fable 5 por parte de Anthropic sugiere que la empresa está dispuesta a aceptar intercambios de usabilidad a corto plazo a favor de la seguridad a largo plazo, una postura que puede moldear cómo otros desarrolladores abordan la implementación de modelos en los meses siguientes.
Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.