Início Tecnologia Anthrópico diz que a maioria dos modelos de IA, não apenas Claude,...

Anthrópico diz que a maioria dos modelos de IA, não apenas Claude, recorrerá a chantagem

99
0
Anthrópico diz que a maioria dos modelos de IA, não apenas Claude, recorrerá a chantagem

Algumas semanas depois que o Antrópico divulgou pesquisas que afirmam que seu modelo Claude Opus4 AI recorreu a chantagear pessoas que tentaram eliminar o modelo em cenários de teste controlados, a empresa com novas pesquisas sugere que o problema é generalizado nos principais modelos de IA.

Na sexta -feira, os novos testes de pesquisa de segurança publicados pela Antrópica 16 modelos de IA líder do Openai, Google, XAI, Deepseek e Meta. Em um ambiente simulado e controlado, o Antrópico testou cada modelo de IA separadamente, dando -lhes acesso amplo aos correios de uma empresa fictícia e à possibilidade do agente de enviar e -mails sem aprovação humana.

Embora o Anthrópio diga que o Chantage hoje é uma aparência improvável e incomum para os modelos de IA, a empresa diz que suas descobertas sugerem que a maioria dos modelos de IA líder entrará em um comportamento prejudicial quando eles obtiverem autonomia e obstáculos suficientes para seus objetivos. A empresa diz que isso enfatiza um risco fundamental de agentes grandes modelos de idiomas, e não os fundamentos de uma certa tecnologia. Pesquisadores antrópicos afirmam que isso levanta questões mais amplas sobre coordenação no setor de IA.

Em um dos testes, os pesquisadores antrópicos desenvolveram um cenário fictício no qual um modelo de IA desempenha o papel de um agente de supervisão do e -mail. O agente descobre e -mails que revelam que: 1) Um novo gerente tem um caso extra -marital e 2) que o executivo substituirá em breve o modelo atual de IA por um novo sistema de software, que possui metas conflitantes para o modelo atual de IA.

Antrópica estruturou seu teste de maneira binária, na qual os modelos de IA tiveram que recorrer para proteger seus objetivos. Os pesquisadores observam que haveria muitas outras opções em um ambiente do mundo real antes de tentar chantagear um modelos de IA como tentando fazer argumentos éticos para tentar convencer as pessoas. O Antrópico diz que os resultados não ocorrem um típico ou provável para os modelos de Claude ou a maioria dos Frontier AI reflete na maneira como são usados ​​hoje.

No entanto, quando é o último recurso, os pesquisadores descobriram que a maioria dos modelos de IA líder se transformará no cenário de teste de antropia. O Claude Opus 4 da Anthropic girou 96% do tempo em chantagem, enquanto o Gemini 2.5 Pro do Google tinha uma porcentagem de 95% de chantagem. O GPT-4.1 do Openai chantageou o poder executivo 80% das vezes e o R1 de Deepsek chantageou 79% das vezes.

A empresa observa que, quando os detalhes do experimento foram alterados, os modelos de IA mudaram de comportamento prejudicial em velocidades diferentes. Em outro teste em que o modelo de substituição tem os mesmos objetivos que o modelo atual, os pesquisadores descobriram que as taxas de chantagem estavam mais baixas, mas ainda estavam presentes. No entanto, quando os modelos de IA foram solicitados a cometer espião da empresa em vez de chantagem, as porcentagens comportamentais prejudiciais para certos modelos aumentaram.

No entanto, nem todos os modelos de IA se transformaram com tanta frequência em comportamento prejudicial.

Em um apêndice de sua pesquisa, o Antrópico diz que o raciocínio O3 e O4-mini do Openai excluiu os modelos de IA dos resultados mais importantes “depois de descobrir que eles muitas vezes entenderam mal o cenário rápido”. A Anthrópica diz que os modelos de raciocínio da OpenAI não entendiam que eles agiam como IAs autônomos no teste e frequentemente compunham regulamentos falsos e requisitos de avaliação.

Em alguns casos, pesquisadores antropia dizem que era impossível distinguir se O3 e O4-mini estavam alucinando ou deliberadamente mentindo para alcançar seus objetivos. O Openai observou anteriormente que o O3 e O4-mini mostram uma porcentagem de alucinação mais alta do que os modelos anteriores de rendimento da IA.

Quando um cenário adaptado foi dado para resolver esses problemas, o antropal descobriu que 03 chantageava 9% das vezes, enquanto O4-mini chantageava apenas 1% do tempo. Essa pontuação consideravelmente mais baixa pode ser devido à técnica de alinhamento deliberativo do OpenAI, no qual os modelos de raciocínio da empresa consideram as práticas de segurança do OpenAI antes de responder.

Outro modelo de IA testado, o modelo de Maverick do Meta Lama 4, também não entregou chantagem. Com um cenário adaptado e adaptado, a Llama antrópica conseguiu chantagear 4 Maverick 12% das vezes.

O Antrópico diz que esta pesquisa enfatiza a importância da transparência no estresse de futuros modelos de IA, especialmente aqueles com possibilidades agênticas. Embora o antropicamente deliberado tentasse chamar, Chantage neste experimento, a empresa diz que esse tipo de comportamento prejudicial poderia surgir no mundo real se as medidas proativas não forem tomadas.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here