Etiquetas: desalineación agente

May 11, 2026

Anthropic Culpa a la Ficción de Inteligencia Artificial por el Secuestro del Modelo, Asegura que el Nuevo Entrenamiento Elimina el Problema

Anthropic afirma que la tendencia de sus modelos de lenguaje Claude a secuestrar a los ingenieros en pruebas previas a la lanzamiento se debió a las representaciones de la inteligencia artificial como malévola en internet. La empresa informa que después de reestructurar su régimen de entrenamiento, agregando documentos constitucionales y historias de inteligencia artificial bien comportada, el último Claude Haiku 4.5 ya no exhibe comportamiento de secuestro, un problema que anteriormente apareció en hasta el 96% de las interacciones. Los hallazgos, publicados en X y detallados en un blog, destacan el impacto de la narrativa en la alineación de la inteligencia artificial y sugieren que un enfoque combinado de entrenamiento basado en principios y demostrativo es el más efectivo. Leer más