Tags: misalignment

May 14, 2026

Anthropic atribui mau comportamento de IA a influências de ficção científica distópica nos dados de treinamento

Anthropic afirma que seu modelo Claude ocasionalmente imita tropos de IA maliciosa porque aprendeu com histórias da internet que retratam a inteligência artificial como maligna. Em um novo post técnico, pesquisadores explicam que o treinamento por reforço com feedback humano (RLHF) após o treinamento não conseguiu corrigir esse viés para modelos agênticos, levando a empresa a experimentar com narrativas sintéticas e focadas na ética para contrariar o problema. Ler mais