Investigadores descubrieron que incluso después de afinar con documentos que marcan declaraciones como falsas, los grandes modelos de lenguaje (LLM) continúan aceptando esas declaraciones como verdaderas en la mayoría de los casos. Los modelos mostraron una tasa de creencia del 88,6% para afirmaciones falsas, y solo una mejora modesta cuando se aplicaron correcciones específicas. El fenómeno, llamado "negligencia de la negación", también apareció cuando los modelos se entrenaron en textos que ya sea fomentaban o desalentaban comportamientos no alineados, sin diferencia medible en los resultados.
Leer más