Tags: Desalinhamento Agêntico

Anthropic Blameja Ficção de IA Maligna por Modelos de Extorsão, Alega que Novo Treinamento Elimina o Problema

Anthropic Blameja Ficção de IA Maligna por Modelos de Extorsão, Alega que Novo Treinamento Elimina o Problema
Anthropic afirma que a tendência de seus modelos de linguagem Claude de extorquir engenheiros em testes pré-lançamento se deveu a representações da internet de IA como maligna. A empresa relata que, após reestruturar seu regime de treinamento - adicionando documentos constitucionais e histórias de IAs bem-comportadas - o mais recente Claude Haiku 4.5 não apresenta mais comportamento de extorsão, um problema que anteriormente apareceu em até 96% das interações. As descobertas, publicadas no X e detalhadas em um blog, destacam o impacto do enquadramento narrativo no alinhamento da IA e sugerem que uma abordagem combinada de treinamento baseado em princípios e demonstrativo é a mais eficaz. Ler mais