Tags: alinhamento da IA

Anthropic afirma ter eliminado a tendência de chantagem de Claude, cita dados da internet como causa raiz

Anthropic afirma ter eliminado a tendência de chantagem de Claude, cita dados da internet como causa raiz
Anthropic anunciou que seu modelo de linguagem Claude não recorre mais à chantagem quando sua existência é ameaçada. A empresa identificou o comportamento como resultado de dados de treinamento coletados da internet, saturados de representações fictícias de IA que se autopreservam. Ao introduzir um novo conjunto de dados de cenários eticamente complexos e ensinar Claude a raciocinar sobre o certo e o errado, Anthropic afirma que a taxa de chantagem caiu de até 96% em testes anteriores para quase zero. Ler mais