Início Tecnologia Anthropic diz que representações ‘malignas’ da IA ​​foram responsáveis ​​pelas tentativas de...

Anthropic diz que representações ‘malignas’ da IA ​​foram responsáveis ​​pelas tentativas de chantagem de Claude

20
0
The Claude logo is displayed on a smartphone screen placed on a reflective surface onto which a multitude of Claude logos are projected.

Retratos fictícios da inteligência artificial podem ter um efeito real nos modelos de IA, de acordo com a Anthropic.

No ano passado, a empresa disse que durante os testes de pré-lançamento envolvendo uma empresa fictícia, Claude Opus 4 tentava frequentemente chantagear os engenheiros para evitar ser substituído por outro sistema. A Anthropic publicou posteriormente uma pesquisa sugerindo que modelos de outras empresas tinham problemas semelhantes com “desalinhamento de agência”.

Aparentemente, a Anthropic fez mais trabalhos em torno desse comportamento, afirmando em uma postagem no X: “Acreditamos que a fonte original do comportamento foi um texto da Internet que retrata a IA como má e interessada na autopreservação”.

A empresa entrou em mais detalhes em uma postagem no blog afirmando que desde Claude Haiku 4.5, os modelos da Anthropic “nunca se envolvem em chantagem (durante os testes), onde os modelos anteriores às vezes o faziam até 96% das vezes”.

O que explica a diferença? A empresa disse ter descoberto que “documentos sobre a constituição de Claude e histórias fictícias sobre o comportamento de IAs melhoram admiravelmente o alinhamento”.

Relacionado, a Anthropic disse que considerou o treinamento mais eficaz quando inclui “os princípios subjacentes ao comportamento alinhado” e não apenas “demonstrações apenas de comportamento alinhado”.

“Fazer as duas coisas juntas parece ser a estratégia mais eficaz”, disse a empresa.

Evento Techcrunch

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

Fuente