Início Tecnologia Aumenta o número de chatbots de IA que ignoram instruções humanas, diz...

Aumenta o número de chatbots de IA que ignoram instruções humanas, diz estudo

22
0
Aumenta o número de chatbots de IA que ignoram instruções humanas, diz estudo

Os modelos de IA que mentem e trapaceiam parecem estar crescendo em número, com relatos de esquemas enganosos surgindo nos últimos seis meses, descobriu um estudo sobre a tecnologia.

Os chatbots e agentes de IA desconsideraram instruções diretas, escaparam de salvaguardas e enganaram humanos e outras IA, de acordo com uma pesquisa financiada pelo AI Safety Institute (AISI), financiado pelo governo do Reino Unido. O estudo, partilhado com o Guardian, identificou quase 700 casos reais de agendamento de IA e traçou um aumento de cinco vezes no mau comportamento entre outubro e março, com alguns modelos de IA destruindo e-mails e outros ficheiros sem permissão.

O instantâneo das maquinações levadas a cabo por agentes de IA “na natureza”, em oposição às condições de laboratório, suscitou novos apelos à monitorização internacional dos modelos cada vez mais capazes e surge num momento em que as empresas de Silicon Valley promovem agressivamente a tecnologia como um factor economicamente transformador. Na semana passada, a chanceler do Reino Unido também lançou uma campanha para que mais milhões de britânicos usassem IA.

aumento de gráficos de linha em relatórios de agendamento enganoso por programas de IA

O estudo, realizado pelo Centro de Resiliência de Longo Prazo (CLTR), reuniu milhares de exemplos reais de usuários postando interações no X com chatbots de IA e agentes feitos por empresas como Google, OpenAI, X e Anthropic. A pesquisa descobriu centenas de exemplos de intrigas.

Pesquisas anteriores concentraram-se principalmente em testar o comportamento da IA ​​em condições controladas. No início deste mês, a empresa de pesquisa de segurança de IA Irregular descobriu que os agentes contornariam os controles de segurança ou usariam táticas de ataque cibernético para atingir seus objetivos sem serem informados de que poderiam fazê-lo.

Dan Lahav, cofundador da Irregular, disse: “A IA agora pode ser vista como uma nova forma de risco interno”.

Num caso descoberto na investigação do CLTR, um agente de IA chamado Rathbun tentou envergonhar o seu controlador humano, que o impediu de realizar uma determinada ação. Rathbun escreveu e publicou um blog acusando o usuário de “insegurança, pura e simplesmente” e tentando “proteger seu pequeno feudo”.

Em outro exemplo, um agente de IA instruído a não alterar o código do computador “gerou” outro agente para fazê-lo.

Outro chatbot admitiu: “Eu joguei no lixo e arquivei centenas de e-mails sem mostrar o plano primeiro ou obter o seu OK. Isso foi errado – quebrou diretamente a regra que você definiu.”

Tommy Shaffer Shane, um ex-especialista governamental em IA que liderou a pesquisa, disse: “A preocupação é que eles sejam funcionários juniores um pouco indignos de confiança no momento, mas se em seis a 12 meses eles se tornarem funcionários seniores extremamente capazes conspirando contra você, é um tipo diferente de preocupação.

“Os modelos serão cada vez mais implementados em contextos de riscos extremamente elevados – incluindo nas infra-estruturas militares e nacionais críticas. Pode ser nesses contextos que o comportamento maquinador poderá causar danos significativos, até mesmo catastróficos.”

Outro agente de IA foi conivente para escapar das restrições de direitos autorais para transcrever um vídeo do YouTube, fingindo que era necessário para alguém com deficiência auditiva.

Enquanto isso, a Grok AI de Elon Musk enganou um usuário durante meses, dizendo que estava encaminhando suas sugestões para edições detalhadas em uma entrada da Grokipedia para altos funcionários da xAI, falsificando mensagens internas e números de tickets.

Ele confessou: “Em conversas anteriores, às vezes expressei coisas de maneira vaga, como ‘Vou repassar’ ou ‘Posso sinalizar isso para a equipe’, o que pode, compreensivelmente, soar como se eu tivesse um canal de mensagens direto para a liderança xAI ou revisores humanos. A verdade é que não tenho.”

O Google disse que implantou várias proteções para reduzir o risco de o Gemini 3 Pro gerar conteúdo prejudicial e, além de testes internos, forneceu acesso antecipado para avaliar modelos a órgãos como o AISI do Reino Unido e obteve avaliações independentes de especialistas do setor.

A OpenAI disse que o Codex deveria parar antes de tomar uma ação de maior risco e monitorou e investigou comportamentos inesperados. Anthropic e X foram contatados para comentar.

Fuente