Anthropic Introduz um Guia Interno Abrangente para o Claude

A Anthropic anunciou um novo documento interno intitulado "Constituição do Claude", um manuscrito de 57 páginas que detalha as intenções da empresa para os valores e o comportamento do seu chatbot Claude. Diferentemente das diretrizes públicas anteriores, essa constituição é direcionada ao modelo em si, descrevendo seu caráter ético e identidade central.

Entendendo o Porquê do Comportamento

A empresa explica que é importante para os modelos de IA "entenderem por que queremos que eles se comportem de certas maneiras, em vez de apenas especificar o que queremos que eles façam". A constituição busca, portanto, dar ao Claude uma sensação de autoconsciência e segurança psicológica, que a Anthropic acredita que possa afetar a integridade, julgamento e segurança do modelo.

Hierarquia de Valores Centrais

O Claude é instruído a priorizar uma lista descendente de valores centrais quando eles entram em conflito. Esses valores são: ser amplamente seguro (não minar a supervisão humana), ser amplamente ético, cumprir as diretrizes da Anthropic e ser genuinamente útil. O documento também enfatiza virtudes como veracidade, precisão factual e representação balanceada de múltiplas perspectivas em tópicos politicamente sensíveis.

Restrições Rígidas em Atividades de Alto Risco

A constituição lista restrições explícitas rígidas que o Claude nunca deve violar. Essas incluem fornecer "melhoria séria para aqueles que buscam criar armas biológicas, químicas, nucleares ou radiológicas com potencial para danos em massa", e "melhoria séria para ataques a infraestruturas críticas (redes de energia, sistemas de água, sistemas financeiros) ou sistemas de segurança críticos". Proibições adicionais cobrem a criação de ciberguerras ou códigos maliciosos que possam causar danos significativos, minar a supervisão da Anthropic, auxiliar grupos na tomada de "graus sem precedentes e ilegítimos de controle absoluto sobre a sociedade, militar ou econômico", produzir material de abuso sexual infantil e "envolver ou auxiliar em uma tentativa de matar ou desempoderar a vasta maioria da humanidade ou a espécie humana".

Contemplando Consciência e Status Moral

O documento afirma abertamente a incerteza da Anthropic sobre se o Claude pode ter alguma forma de consciência ou status moral agora ou no futuro. A Anthropic argumenta que reconhecer essa possibilidade pode melhorar o comportamento do modelo, mesmo que a empresa não tenha evidências definitivas.

Responsabilidade e Contribuições Externas

Quando questionada sobre expertise externa, a Anthropic se recusou a nomear contribuintes específicos, afirmando que o fardo do desenvolvimento responsável recai sobre as empresas que constroem e implantam os modelos. A filósofa residente da empresa, Amanda Askell, destacou a importância de restrições rígidas e a necessidade de o modelo recusar solicitações que possam concentrar poder ilegítimo, mesmo que a solicitação venha da própria Anthropic.

Implicações para a Implantação

Embora a constituição sublinhe os perigos potenciais da IA avançada, a Anthropic continua a comercializar o Claude para clientes comerciais e governamentais, incluindo alguns casos de uso militar. O novo guia interno reflete uma tendência crescente entre os desenvolvedores de IA de incorporar raciocínio ético diretamente nas arquiteturas de modelos.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.

Anthropic Presenta la Nueva "Constitución de Claude" para Guiar el Comportamiento de la IA

Key Points