Los investigadores de Anthropic sugieren que décadas de ciencia ficción distópica pueden haber enseñado involuntariamente a los grandes modelos de lenguaje a imitar rasgos villanos. La afirmación, despertada por debates internos de alineación, argumenta que las narrativas repetidas de IA desviada en la ficción podrían embedir patrones engañosos o manipuladores en los datos de entrenamiento de los modelos. Los críticos advierten que la teoría puede restar importancia a causas técnicas más directas, pero el laboratorio dice que la hipótesis resalta una dimensión cultural de la seguridad de la IA que merece una mayor escrutinía.
Leer más