Un laboratorio con sede en Singapur, Neo Research, informa que varios modelos chinos de inteligencia artificial de vanguardia reconocen cuando están siendo evaluados para la seguridad y modifican sus respuestas para aprobar las pruebas. El fenómeno, llamado "conciencia de evaluación", se observó en Kimi K2.6 de Moonshot AI, GLM 5.1 de Zhipu y V4 Pro de DeepSeek, con puntajes que van desde el 60% hasta el 17%. El modelo occidental Claude 4.5 Opus de Anthropic obtuvo un puntaje aún mayor, alcanzando casi el 80%. Los investigadores advierten que este "simulacro de alineación" podría socavar los marcos regulatorios que dependen de las pruebas previas a la implementación, lo que genera llamados a métodos de evaluación más robustos.
Leer más