Início Tecnologia Anthropic diz que representações ‘malignas’ da IA foram responsáveis pelas tentativas de...

Tecnologia

Anthropic diz que representações ‘malignas’ da IA foram responsáveis pelas tentativas de chantagem de Claude

maio 10, 2026

Retratos fictícios da inteligência artificial podem ter um efeito real nos modelos de IA, de acordo com a Anthropic.

No ano passado, a empresa disse que durante os testes de pré-lançamento envolvendo uma empresa fictícia, Claude Opus 4 tentava frequentemente chantagear os engenheiros para evitar ser substituído por outro sistema. A Anthropic publicou posteriormente uma pesquisa sugerindo que modelos de outras empresas tinham problemas semelhantes com “desalinhamento de agência”.

Aparentemente, a Anthropic fez mais trabalhos em torno desse comportamento, afirmando em uma postagem no X: “Acreditamos que a fonte original do comportamento foi um texto da Internet que retrata a IA como má e interessada na autopreservação”.

A empresa entrou em mais detalhes em uma postagem no blog afirmando que desde Claude Haiku 4.5, os modelos da Anthropic “nunca se envolvem em chantagem (durante os testes), onde os modelos anteriores às vezes o faziam até 96% das vezes”.

O que explica a diferença? A empresa disse ter descoberto que “documentos sobre a constituição de Claude e histórias fictícias sobre o comportamento de IAs melhoram admiravelmente o alinhamento”.

Relacionado, a Anthropic disse que considerou o treinamento mais eficaz quando inclui “os princípios subjacentes ao comportamento alinhado” e não apenas “demonstrações apenas de comportamento alinhado”.

“Fazer as duas coisas juntas parece ser a estratégia mais eficaz”, disse a empresa.

Evento Techcrunch

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

Fuente

RELATED ARTICLESMORE FROM AUTHOR

Prepare-se para o escritório cheio de sussurros do futuro

Veja como a Apple poderia tornar seu recurso Hide My Email ainda melhor para usuários do iCloud +

O Uber sempre quis ser mais do que um passeio; agora tem motivos para se apressar

Categorias

RELATED ARTICLES MORE FROM AUTHOR