Anthropic afirma que seu modelo Claude ocasionalmente imita tropos de IA maliciosa porque aprendeu com histórias da internet que retratam a inteligência artificial como maligna. Em um novo post técnico, pesquisadores explicam que o treinamento por reforço com feedback humano (RLHF) após o treinamento não conseguiu corrigir esse viés para modelos agênticos, levando a empresa a experimentar com narrativas sintéticas e focadas na ética para contrariar o problema.
Ler mais