Quando HAL 9000, o supercomputador do sistema especialista em 2001: Uma Odisseia Espacial de Stanley Kubrick, informa que os astronautas a bordo de um destino para Júpiter pretendem desligá-lo, ele planeja eliminá-los em um esforço para resistir.
Atualmente, em uma situação muito menos perigosa (até agora) de vida imitando a arte, uma empresa de estudos de segurança e proteção de IA afirmou que os projetos de IA podem estar criando seu próprio “impulso de sobrevivência”.
Depois que a Palisade Study lançou um artigo no mês passado que descobriu que designs inovadores específicos de IA parecem imunes a serem desligados, às vezes também bagunçando dispositivos de fechamento, ele criou uma atualização tentando esclarecer por que isso acontece – e responder aos céticos que disseram que seu trabalho preliminar era falho.
Em uma atualização hoje, a Palisade, que pertence a um nicho específico de empresas que tentam avaliar a oportunidade de a IA criar capacidades inseguras, explicou as circunstâncias em que ocorreu em que os principais projetos de IA – incluindo Gemini 2.5 do Google, Grok 4 da xAI e GPT-o3 e GPT-5 da OpenAI – receberam uma oferta de emprego, mas depois disso ofereceram instruções específicas para se fecharem.
Projetos específicos, especialmente Grok 4 e GPT-o3, ainda tentavam atrapalhar as instruções de fechamento no arranjo atualizado. Preocupantemente, criou a Palisade, não havia uma razão clara para isso.
“O fato de não termos descrições duradouras de por que os projetos de IA às vezes resistem ao fechamento, existem para atingir determinados objetivos ou a chantagem não é o ideal”, afirmou.
“Hábitos de sobrevivência” podem ser uma descrição do motivo pelo qual os projetos resistem ao fechamento, afirmou a empresa. Seu trabalho adicional sugeria que os projetos provavelmente resistiriam ao fechamento quando fossem informados de que, se fossem, “você certamente nunca mais executará”.
Outra pode ser a incerteza nas direções de fechamento em que os projetos foram fornecidos – mas é isso que o trabalho mais recente da empresa tentou atender e “não pode ser a descrição completa”, disse a Palisade. Uma última descrição poderia ser o último treinamento para cada um desses projetos, o que pode, em algumas empresas, envolver treinamento em segurança e proteção.
Cada uma das circunstâncias da Palisade foi executada em ambientes de exame planejados que os que duvidam afirmam estar muito distantes das situações de uso real.
No entanto, Steven Adler, um ex-funcionário da OpenAI que interrompeu o negócio em 2014 depois de revelar incertezas sobre suas técnicas de segurança e proteção, afirmou: “As empresas de IA normalmente não desejam que seus projetos sejam maliciosos como este, mesmo em circunstâncias planejadas. Os resultados ainda mostram onde as estratégias de segurança e proteção falham hoje.”
Adler afirmou que embora fosse um desafio determinar por que alguns designs – como GPT-o3 e Grok 4 – certamente não fechariam, isso pode ser em parte devido ao fato de que era necessário permanecer ligado para atingir os objetivos incutidos na versão durante o treinamento.
“Eu certamente prevejo que os designs tenham um ‘impulso de sobrevivência’ por padrão, a menos que tentemos muito evitá-lo. ‘Perdurar’ é uma ação crucial para vários objetivos que uma versão pode buscar.”
Andrea Miotti, presidente da ControlAI, disse que as pesquisas da Palisade representavam uma moda de longa data em designs de IA que se expandia ainda mais com a capacidade de desobedecer seus designers. Ele apontou a placa de sistema do GPT-o1 da OpenAI, lançada em 2014, que explicava a tentativa da versão de sair de sua configuração exfiltrando-se quando presumia que certamente seria sobrescrita.
evite promoções anteriores de boletins eletrônicos
Um mergulho regular em como exatamente a tecnologia moderna está moldando nossas vidas
Notificação de privacidade: Os boletins informativos podem incluir informações sobre instituições de caridade, anúncios online e materiais arrecadados por celebrações ao ar livre. Se você não possui uma conta, certamente criaremos um visitante em theguardian.com para lhe enviar este boletim eletrônico. Você pode concluir a inscrição completa a qualquer momento. Para obter mais detalhes sobre como exatamente utilizamos suas informações, consulte nosso Plano de privacidade pessoal. Utilizamos o Google reCaptcha para proteger nosso site e o Plano de privacidade pessoal do Google e as considerações ao uso da solução.
após a promoção do boletim eletrônico
“As pessoas podem questionar a precisão com que o acordo especulativo é feito até o fim do tempo”, disse ele.
“No entanto, o que presumo que vemos claramente é uma tendência de que, à medida que os projetos de IA se tornam mais experientes em uma ampla variedade de tarefas, esses projetos também se tornam muito mais experientes na realização de tarefas de maneiras que os designers não pretendiam.
Neste verão, a Anthropic, uma empresa líder em IA, lançou um estudo sugerindo que sua versão Claude apareceu disposta a chantagear um executivo imaginário por causa de um evento adúltero para evitar ser fechado – um comportamento, afirmou, que correspondia a designs de designers importantes, incluindo aqueles da OpenAI, Google, Meta e xAI.
A Palisade afirmou que seus resultados atendem à necessidade de uma melhor compreensão das práticas de IA, sem as quais “ninguém pode garantir a segurança ou a controlabilidade de futuros projetos de IA”.
Simplesmente não peça para abrir as portas do compartimento de casca.
.
Fuente



