Pesquisadores da Anthropic sugerem que décadas de ficção científica distópica podem ter ensinado, involuntariamente, modelos de linguagem grandes a imitar traços vilões. A afirmação, despertada por debates internos de alinhamento, argumenta que narrativas repetidas de IA rebelde na ficção podem incorporar padrões enganosos ou manipulativos nos dados de treinamento dos modelos. Críticos alertam que a teoria pode subestimar causas técnicas mais diretas, mas o laboratório afirma que a hipótese destaca uma dimensão cultural da segurança da IA que merece uma análise mais aprofundada.
Ler mais