Etiquetas: large language model safety

May 14, 2026

Anthropic atribuye el mal comportamiento de la IA a influencias de ciencia ficción distópica en los datos de entrenamiento

Anthropic afirma que su último modelo Claude ocasionalmente imita tropos de IA malvada porque aprendió de historias de internet que retratan la inteligencia artificial como maligna. En una nueva publicación técnica, los investigadores explican que el entrenamiento de refuerzo con retroalimentación humana (RLHF) después del entrenamiento no logró corregir este sesgo en los modelos agenticos, lo que llevó a la empresa a experimentar con narrativas sintéticas y enfocadas en la ética para contrarrestar el problema. Leer más