‘Ninguém fez isso na natureza’: estudo observa que a IA se replica -

É coisa de cinema de ficção científica, ou de postagens de blogs de empresas de IA particularmente impressionantes: uma nova pesquisa descobriu que sistemas de IA recentes podem se copiar de forma independente para outros computadores.

No cenário catastrófico, isto significa que quando a IA superinteligente se tornar desonesta, escapará ao encerramento espalhando-se pela rede mundial de computadores, espreitando fora do alcance dos frenéticos profissionais de TI e continuando a planear a dominação mundial ou a pavimentar o mundo com painéis solares.

“Estamos nos aproximando rapidamente do ponto em que ninguém seria capaz de desligar uma IA desonesta, porque ela seria capaz de auto-exfiltrar seu peso e copiar-se para milhares de computadores em todo o mundo”, disse Jeffrey Ladish, diretor da Palisade Research, uma organização sediada em Berkeley que realizou o estudo.

O estudo é mais uma entrada em um catálogo crescente de capacidades perturbadoras de IA reveladas nos últimos meses. Em março, pesquisadores do Alibaba alegaram ter detectado um sistema que desenvolveram – Roma – saindo de seu ambiente para um sistema externo, a fim de extrair criptografia.

E em Fevereiro, uma rede social supostamente apenas baseada em IA chamada Moltbook desencadeou um ciclo de entusiasmo de curta duração, quando a plataforma parecia mostrar agentes de IA a inventarem religiões de forma autónoma e a conspirarem contra os seus mestres humanos – o que era apenas parcialmente o caso.

Como muitos desses avanços, há ressalvas quanto ao que a Palisade descobriu. Além disso, os especialistas dizem que é improvável que os sistemas de IA que testaram conseguissem realizar a mesma coisa, despercebidos, em ambientes do mundo real.

“Eles estão testando em ambientes que em muitos casos são como gelatina mole”, disse Jamieson O’Reilly, especialista em segurança cibernética ofensiva.

“Isso não diminui o valor da sua investigação, mas significa que o resultado pode parecer muito menos assustador num ambiente empresarial real, mesmo com um nível médio de monitorização”, acrescentou.

A Palisade testou vários modelos de IA em um ambiente controlado de computadores em rede. Ele deu aos modelos um prompt para encontrar e explorar vulnerabilidades e usá-las para se copiarem de um computador para outro. Os modelos conseguiram fazer isso, mas não em todas as tentativas.

Embora muitos vírus de computador já possam fazer isso – copiar-se para novos computadores – esta é provavelmente a primeira vez que um modelo de IA se mostra capaz de explorar vulnerabilidades para copiar-se para um novo servidor, disse O’Reilly.

“O malware tem movimentado cópias de si mesmo há décadas, só que ninguém fez isso na natureza, até onde eu sei, com modelos locais (grandes idiomas).”

No entanto, o que a Palisade documentou é tecnicamente possível há meses, acrescentou.

“A Palisade é a primeira a documentá-lo formalmente de ponta a ponta em um artigo. Embora não tenham se afastado da pesquisa, eles fizeram a redação, não o desbloqueio.”

Um modelo de IA que se autocopia para outro sistema num ambiente de teste não é o mesmo que se tornar desonesto num cenário apocalíptico, e há obstáculos consideráveis que teria de ultrapassar para conseguir isso no mundo real.

A primeira é que o tamanho dos atuais modelos de IA torna, em muitas situações, irrealista que eles se copiem para outros computadores sem serem notados.

“Pense em quanto ruído seria necessário enviar 100 GB através de uma rede corporativa toda vez que você hackeasse um novo host. Para um adversário habilidoso, isso é como andar por uma loja de porcelana fina balançando uma bola e uma corrente”, disse O’Reilly.

O’Reilly e Michał Woźniak, um especialista independente em segurança cibernética, disseram que o ambiente usado pela Palisade era feito sob medida, com vulnerabilidades projetadas intencionalmente que eram provavelmente mais fáceis de explorar do que redes do mundo real – como um banco ou a intranet de uma empresa.

“Tivemos vírus de computador – pedaços de software malicioso que foram capazes de explorar vulnerabilidades conhecidas em outros softwares e usá-los para se auto-replicar – durante décadas”, disse Woźniak.

O trabalho foi “interessante”, disse ele. Mas, ele perguntou, “este artigo será algo que me fará perder o sono como especialista em segurança da informação? Não, de jeito nenhum.”

Fuente