Pesquisadores descobriram que, mesmo após o ajuste fino com documentos que flagram declarações como falsas, os modelos de linguagem grande (MLL) continuam a aceitar essas declarações como verdadeiras na maioria dos casos. Os modelos mostraram uma taxa de crença de 88,6% para alegações falsas e apenas uma melhoria modesta quando correções específicas foram aplicadas. O fenômeno, chamado de "negligência da negação", também apareceu quando os modelos foram treinados em textos que incentivavam ou desencorajavam comportamentos desalinhados, sem diferença mensurável nos resultados.
Ler mais