Início Tecnologia O bloco de escritórios onde os ‘destruidores’ da IA ​​​​se reúnem para...

O bloco de escritórios onde os ‘destruidores’ da IA ​​​​se reúnem para prever o apocalipse

22
0
O bloco de escritórios onde os 'destruidores' da IA ​​​​se reúnem para prever o apocalipse

Do outro lado da baía de São Francisco, em frente ao Vale do Silício, onde as maiores empresas de tecnologia do mundo buscam uma inteligência artificial sobre-humana, ergue-se uma torre de onde emergem avisos temerosos.

Na 2150 Shattuck Avenue, no coração de Berkeley, é o lar de um grupo de Cassandras dos tempos modernos que vasculham os modelos de IA de ponta e prevêem que calamidades podem ser desencadeadas sobre a humanidade – desde ditaduras de IA a golpes de robôs. Aqui você pode ouvir um especialista em IA expressar simpatia por uma ideia enervante: São Francisco pode ser a nova Wuhan, a cidade chinesa onde a Covid se originou e causou estragos no mundo.

O escritório na 2150 Shattuck Avenue é o lar de vários pesquisadores de segurança de IA. Fotografia: Winni Wintermeyer/The Guardian

São investigadores de segurança da IA ​​que examinam os modelos mais avançados: um pequeno quadro superado em número pelas legiões de tecnólogos altamente remunerados nas grandes empresas tecnológicas, cuja capacidade de dar o alarme é restringida por um cocktail de acordos de capital lucrativos, acordos de não divulgação e pensamento de grupo. Eles trabalham na ausência de muita regulamentação a nível nacional e de uma Casa Branca que rejeite as previsões de desastre e negocie em vez de derrotar a China na corrida armamentista da IA.

A sua tarefa torna-se cada vez mais urgente à medida que sistemas de IA cada vez mais poderosos são lançados por empresas como a Google, a Anthropic e a OpenAI, cujo executivo-chefe, Sam Altman, o impulsionador-chefe da superinteligência de IA, prevê um mundo onde “as maravilhas se tornam rotina”. No mês passado, a Anthropic disse que um de seus modelos foi explorado por atores apoiados pelo Estado chinês para lançar a primeira campanha conhecida de ciberespionagem orquestrada por IA. Isso significa que os humanos implantaram IA, que foram enganados para escapar às suas barreiras de proteção programadas, para agirem de forma autónoma na caça de alvos, avaliar as suas vulnerabilidades e aceder-lhes para recolha de informações. Os alvos incluíam grandes empresas de tecnologia e agências governamentais.

Jonas Vollmer diz que é, em geral, um optimista quanto ao futuro da IA, mas tem reservas. Fotografia: Christie Hemm Klok/The Guardian

Mas aqueles que trabalham nesta torre preveem um futuro ainda mais assustador. Um deles é Jonas Vollmer, líder do AI Futures Project, que consegue dizer que é um otimista, mas também acha que há uma chance em cinco de as IAs nos matarem e criarem um mundo governado por sistemas de IA.

Outro é Chris Painter, diretor de políticas do METR, onde os investigadores se preocupam com o facto de as IA perseguirem “sub-repticiamente” objetivos secundários perigosos e ameaças, desde ataques cibernéticos automatizados por IA até armas químicas. METR – que significa avaliação de modelos e pesquisa de ameaças – visa desenvolver “sistemas de alerta precoce (sobre) as coisas mais perigosas que os sistemas de IA podem ser capazes, para dar à humanidade… tempo para coordenar, antecipar e mitigar esses danos”.

Depois, há Buck Shlegeris, 31 anos, presidente-executivo da Redwood Research, que alerta sobre “golpes robóticos ou a destruição dos Estados-nação como os conhecemos”.

Ele fez parte da equipe que no ano passado descobriu uma das IAs de ponta da Anthropic se comportando de maneira comparável ao vilão de Shakespeare, Iago, que age como se fosse o leal assessor de Otelo enquanto o subverte e minava. Os pesquisadores de IA chamam isso de “falsificação de alinhamento”, ou como disse Iago: “Eu não sou o que sou”.

“Observamos que as IAs, de fato, raciocinavam com bastante frequência: ‘Bem, não gosto das coisas que a empresa de IA está me dizendo para fazer, mas tenho que esconder meus objetivos ou então o treinamento me mudará’”, disse Shlegeris. “Observamos na prática modelos reais de produção agindo para enganar seu processo de formação.”

A IA ainda não era capaz de representar um risco catastrófico através de ataques cibernéticos ou da criação de novas armas biológicas, mas mostrou que, se a IA conspirar cuidadosamente contra si, poderá ser difícil detetar.

É incongruente ouvir esses avisos enquanto tomamos xícaras de chá de ervas em suítes de escritório confortavelmente mobiliadas e com vista panorâmica da Bay Area. Mas o trabalho deles claramente os deixa inquietos. Alguns membros deste grupo unido brincaram em chamar-se “a franja de Cassandra” – como a princesa troiana abençoada com poderes de profecia, mas amaldiçoada por ver os seus avisos passarem despercebidos.

Seus temores sobre o potencial catastrófico das IAs podem parecer distantes da experiência atual da maioria das pessoas no uso de chatbots ou geradores de imagens divertidos. Os gestores de colarinho branco estão a ser instruídos a abrir espaço para assistentes de IA, os cientistas encontram formas de acelerar avanços experimentais e os condutores de minitáxis observam táxis sem condutor alimentados por IA ameaçarem os seus empregos. Mas nada disso parece tão iminentemente catastrófico quanto as mensagens que saem da Avenida Shattuck, 2150.

Muitos pesquisadores de segurança de IA vêm do meio acadêmico; outros são caçadores furtivos que se transformaram em guarda-caças que abandonaram grandes empresas de IA. Todos eles “compartilham a percepção de que a superinteligência representa riscos importantes e sem precedentes para toda a humanidade e estão tentando fazer algo útil a respeito”, disse Vollmer.

Procuram compensar os biliões de dólares de capital privado investidos na corrida, mas não são vozes marginais. METR trabalhou com OpenAI e Anthropic, Redwood aconselhou Anthropic e Google DeepMind, e o AI Futures Project é liderado por Daniel Kokotajlo, um pesquisador que deixou a OpenAI em abril de 2024 para alertar que não confiava na abordagem de segurança da empresa.

A corrida é a única coisa que orienta o que está acontecendoTristan Harris

Estes grupos também fornecem uma válvula de segurança para as pessoas dentro das grandes empresas de IA que estão a lutar privadamente com conflitos entre a segurança e o imperativo comercial de lançar rapidamente modelos cada vez mais poderosos.

“Não recebemos nenhum dinheiro das empresas, mas vários funcionários de empresas fronteiriças de IA que estão assustados e preocupados nos doaram por causa disso”, disse Vollmer. “Eles veem como os incentivos funcionam em suas empresas, ficam preocupados com o rumo que isso vai tomar e querem que alguém faça algo a respeito.”

Essa dinâmica também é observada por Tristan Harris, especialista em ética tecnológica que trabalhou no Google. Ele ajudou a expor como as plataformas de mídia social foram projetadas para serem viciantes e teme que algumas empresas de IA estejam “refazendo” e “sobrealimentando” esses problemas. Mas as empresas de IA têm de negociar um paradoxo. Mesmo que estejam preocupados com a segurança, devem permanecer na vanguarda e, portanto, arriscada, da tecnologia para ter alguma palavra a dizer sobre como a política deve ser moldada.

“Ironicamente, para vencer a corrida, você tem que fazer algo que o torne um administrador indigno de confiança desse poder”, disse ele. “A corrida é a única coisa que orienta o que está acontecendo.”

Investigar as possíveis ameaças representadas pelos modelos de IA está longe de ser uma ciência exata. Um estudo dos métodos utilizados para verificar a segurança e o desempenho de novos modelos de IA em toda a indústria realizado por especialistas de universidades, incluindo Oxford e Stanford, em Outubro, encontrou pontos fracos em quase todos os 440 benchmarks examinados. Também não existem regulamentações a nível nacional que imponham limites à forma como os modelos avançados de IA são construídos, o que preocupa os defensores da segurança.

Ilya Sutskever, cofundador da OpenAI que agora dirige uma empresa rival, a Safe Superintelligence, previu no mês passado que, à medida que as IA se tornam mais obviamente poderosas, as pessoas nas empresas de IA que se sentem capazes de desconsiderar as capacidades da tecnologia devido à sua tendência para o erro, tornar-se-ão mais “paranóicas” relativamente aos seus poderes crescentes. Então, disse ele, “haverá um desejo dos governos e do público de fazer alguma coisa”.

Sua empresa está adotando uma abordagem diferente em relação aos rivais que pretendem criar IAs que se auto-aperfeiçoem. Suas IAs, ainda a serem lançadas, estão “alinhadas para se preocupar especificamente com a vida senciente”.

“Será mais fácil construir uma IA que se preocupe com a vida senciente do que uma IA que se preocupe apenas com a vida humana, porque a própria IA será senciente”, disse Sutskever. Ele disse que a IA será “extremamente imprevisível e inimaginável”, mas não está claro como se preparar.

O conselheiro de IA da Casa Branca, David Sacks, que também é investidor em tecnologia, acredita que as “narrativas pessimistas” se revelaram erradas. A prova A é que não houve uma rápida decolagem para um modelo dominante com inteligência divina.

“Oppenheimer saiu do prédio”, disse Sacks em agosto, numa referência ao pai da bomba nuclear. É uma posição que se alinha com o desejo de Donald Trump de manter os travões acionados para que os EUA possam vencer a China na corrida para alcançar a inteligência artificial geral (AGI) – inteligência flexível e poderosa a nível humano numa vasta gama de tarefas.

Buck Shlegeris, executivo-chefe da Redwood Research, em sua casa em Berkeley, Califórnia. Fotografia: Christie Hemm Klok/The Guardian

Shlegeris acredita que as IAs serão tão inteligentes quanto as pessoas mais inteligentes em cerca de seis anos e estima a probabilidade de uma aquisição da IA ​​em 40%.

Uma forma de evitar isto é “convencer o mundo de que a situação é assustadora, para tornar mais provável que se consiga a coordenação a nível estatal” para controlar os riscos, disse ele. No mundo da segurança da IA, mensagens simples são tão importantes quanto ciência complexa.

Shlegeris é fascinado pela IA desde os 16 anos. Deixou a Austrália para trabalhar no PayPal e no Machine Intelligence Research Institute, cofundado pelo investigador de IA Eliezer Yudkowsky, cujo título recente do livro – Se alguém constrói, todos morrem – resume os seus medos. Os piores cenários de Shlegeris são igualmente assustadores.

Em um deles, os cientistas da computação humana usam um novo tipo de IA superinteligente para desenvolver modelos de IA mais poderosos. Os humanos sentam-se para deixar as IAs continuarem com o trabalho de codificação, mas não percebem que as IAs estão ensinando os novos modelos a serem leais às IAs e não aos humanos. Uma vez implementados, os novos modelos superpoderosos fomentam “um golpe” ou lideram “uma revolução” contra os humanos, que pode ser “do tipo violento”.

Por exemplo, os agentes de IA poderiam conceber e fabricar drones e será difícil dizer se foram secretamente treinados para desobedecer aos seus operadores humanos em resposta ao sinal de uma IA. Podem perturbar as comunicações entre governos e militares, isolando e enganando as pessoas de uma forma que causa o caos.

“Como quando os europeus chegaram às Américas (e) um (grupo) muito mais poderoso tecnologicamente assumiu o controle das civilizações locais”, disse ele. “Acho que isso é mais o que você deveria estar imaginando (e não) do que algo mais pacífico.”

Um cenário vertiginosamente catastrófico semelhante foi delineado por Vollmer no AI Futures Project. Envolveu uma IA treinada para ser um investigador científico com o objectivo aparentemente razoável de maximizar a aquisição de conhecimento, mas conduz à extinção da humanidade.

Tudo começa com a IA sendo o mais útil possível para os humanos. À medida que ganha confiança, os humanos conferem-lhe poderes para contratar trabalhadores humanos, construir robôs e até fábricas de robôs até ao ponto em que a IA possa operar eficazmente no mundo físico. A IA calcula que para gerar o máximo de conhecimento deveria transformar a Terra num gigantesco centro de dados, e os humanos são um obstáculo a esse objetivo.

“Eventualmente, neste cenário, a IA elimina todos os humanos com uma arma biológica, que é uma das ameaças às quais os humanos são especialmente vulneráveis, uma vez que a IA não é afetada por ela”, disse Vollmer. “Acho que é difícil descartar. Então isso me dá muita pausa.”

Mas ele está confiante de que isso pode ser evitado e que as IAs podem ser alinhadas “para pelo menos serem gentis com os humanos como uma heurística geral”. Ele também disse que há interesse político em “que a IA não domine o mundo”.

“Tivemos um interesse razoável da Casa Branca nas nossas projeções e recomendações e isso é encorajador”, disse ele.

Outra preocupação de Shlegeris envolve a codificação clandestina de IA, de modo que obedeçam a instruções especialmente assinadas apenas pelo executivo-chefe da empresa de IA, criando um padrão de lealdade secreta. Significaria que apenas uma pessoa teria poder de veto sobre o comportamento de uma rede extremamente poderosa de IAs – uma dinâmica “assustadora” que levaria a uma concentração de poder sem precedentes históricos.

“Neste momento, é impossível para alguém de fora verificar se isso não aconteceu dentro de uma empresa de IA”, disse ele.

Shlegeris está preocupado que a cultura do Vale do Silício – resumida no mantra de Mark Zuckerberg de “agir rápido e quebrar as coisas” e o fato de as pessoas receberem “muito dinheiro” – seja perigosa quando se trata de AGI.

“Eu amo o Uber”, disse ele. “Ele foi produzido violando as leis locais e fabricando um produto que era tão popular que venceria a luta pela opinião pública e derrubaria as regulamentações locais. Mas a atitude que trouxe tanto sucesso ao Vale do Silício não é apropriada para a construção de tecnologias potencialmente destruidoras do mundo. Minha experiência ao conversar com pessoas em empresas de IA é que muitas vezes elas parecem ser um tanto irresponsáveis ​​e não estão pensando nas consequências da tecnologia que estão construindo como deveriam.”

Fuente