Mesmo enquanto a OpenAI trabalha para fortalecer seu navegador Atlas AI contra ataques cibernéticos, a empresa admite que as injeções imediatas, um tipo de ataque que manipula agentes de IA para seguir instruções maliciosas, muitas vezes escondidas em páginas da web ou e-mails, são um risco que não desaparecerá tão cedo – levantando questões sobre a segurança com que os agentes de IA podem operar na web aberta.
“É improvável que a injeção imediata, assim como os golpes e a engenharia social na web, sejam totalmente ‘resolvidos’”, escreveu a OpenAI em uma postagem no blog na segunda-feira, detalhando como a empresa está reforçando a armadura da Atlas para combater os ataques incessantes. A empresa admitiu que o ‘modo agente’ no ChatGPT Atlas “expande a superfície de ameaças à segurança”.
A OpenAI lançou seu navegador ChatGPT Atlas em outubro, e pesquisadores de segurança correram para publicar suas demonstrações, mostrando que era possível escrever algumas palavras no Google Docs que eram capazes de mudar o comportamento do navegador subjacente. No mesmo dia, Brave publicou uma postagem no blog explicando que a injeção indireta de prompt é um desafio sistemático para navegadores com tecnologia de IA, incluindo o Comet da Perplexity.
A OpenAI não é a única a reconhecer que as injeções imediatas não vão desaparecer. O Centro Nacional de Segurança Cibernética do Reino Unido alertou no início deste mês que ataques imediatos de injeção contra aplicações generativas de IA “podem nunca ser totalmente mitigados”, colocando os sites em risco de serem vítimas de violações de dados. A agência governamental do Reino Unido aconselhou os profissionais cibernéticos a reduzirem o risco e o impacto das injeções imediatas, em vez de pensarem que os ataques podem ser “interrompidos”.
Da parte da OpenAI, a empresa disse: “Vemos a injeção imediata como um desafio de segurança de IA de longo prazo e precisaremos fortalecer continuamente nossas defesas contra ela”.
A resposta da empresa a esta tarefa de Sísifo? Um ciclo proativo e de resposta rápida que, segundo a empresa, está se mostrando promissor em ajudar a descobrir novas estratégias de ataque internamente, antes que sejam exploradas “na natureza”.
Isso não é totalmente diferente do que rivais como a Anthropic e a Google têm dito: que para lutar contra o risco persistente de ataques imediatos, as defesas devem ser dispostas em camadas e continuamente testadas. O trabalho recente do Google, por exemplo, concentra-se em controles de arquitetura e de nível de política para sistemas de agentes.
Mas onde a OpenAI está adotando uma atitude diferente é com seu “atacante automatizado baseado em LLM”. Esse invasor é basicamente um bot que a OpenAI treinou, usando aprendizado por reforço, para desempenhar o papel de um hacker que procura maneiras de transmitir instruções maliciosas a um agente de IA.
O bot pode testar o ataque em simulação antes de usá-lo de verdade, e o simulador mostra como a IA alvo pensaria e quais ações tomaria se visse o ataque. O bot pode então estudar essa resposta, ajustar o ataque e tentar novamente e novamente. Essa visão do raciocínio interno da IA alvo é algo a que pessoas de fora não têm acesso, portanto, em teoria, o bot da OpenAI deveria ser capaz de encontrar falhas mais rapidamente do que um invasor do mundo real faria.
É uma tática comum em testes de segurança de IA: construir um agente para encontrar os casos extremos e testá-los rapidamente em simulação.
“Nosso invasor treinado em (aprendizado por reforço) pode orientar um agente para a execução de fluxos de trabalho sofisticados e prejudiciais de longo prazo que se desdobram em dezenas (ou mesmo centenas) de etapas”, escreveu OpenAI. “Também observamos novas estratégias de ataque que não apareceram em nossa campanha de equipe vermelha humana ou em relatórios externos.”
Créditos da imagem:OpenAI
Em uma demonstração (parcialmente mostrada acima), a OpenAI mostrou como seu invasor automatizado inseriu um e-mail malicioso na caixa de entrada de um usuário. Posteriormente, quando o agente de IA examinou a caixa de entrada, ele seguiu as instruções ocultas no e-mail e enviou uma mensagem de demissão em vez de redigir uma resposta de ausência temporária. Mas após a atualização de segurança, o “modo agente” foi capaz de detectar com sucesso a tentativa de injeção imediata e sinalizá-la para o usuário, de acordo com a empresa.
A empresa diz que, embora seja difícil proteger a injeção imediata de maneira infalível, ela está se apoiando em testes em larga escala e ciclos de patches mais rápidos para fortalecer seus sistemas antes que eles apareçam em ataques no mundo real.
Um porta-voz da OpenAI se recusou a compartilhar se a atualização da segurança do Atlas resultou em uma redução mensurável nas injeções bem-sucedidas, mas diz que a empresa tem trabalhado com terceiros para proteger o Atlas contra injeções imediatas desde antes do lançamento.
Rami McCarthy, principal pesquisador de segurança da empresa de segurança cibernética Wiz, diz que o aprendizado por reforço é uma maneira de se adaptar continuamente ao comportamento do invasor, mas é apenas parte do quadro.
“Uma maneira útil de raciocinar sobre o risco em sistemas de IA é a autonomia multiplicada pelo acesso”, disse McCarthy ao TechCrunch.
“Os navegadores agentes tendem a ocupar uma parte desafiadora desse espaço: autonomia moderada combinada com acesso muito alto”, disse McCarthy. “Muitas recomendações atuais refletem essa compensação. Limitar o acesso logado reduz principalmente a exposição, enquanto exigir a revisão das solicitações de confirmação restringe a autonomia.”
Essas são duas recomendações da OpenAI para que os usuários reduzam seus próprios riscos, e um porta-voz disse que a Atlas também é treinada para obter a confirmação do usuário antes de enviar mensagens ou fazer pagamentos. A OpenAI também sugere que os usuários forneçam instruções específicas aos agentes, em vez de fornecer-lhes acesso à sua caixa de entrada e dizer-lhes para “tomar as medidas necessárias”.
“A ampla latitude torna mais fácil que conteúdos ocultos ou maliciosos influenciem o agente, mesmo quando existem proteções”, de acordo com OpenAI.
Embora a OpenAI diga que proteger os usuários do Atlas contra injeções imediatas é uma prioridade máxima, McCarthy provoca algum ceticismo quanto ao retorno do investimento para navegadores propensos a riscos.
“Para a maioria dos casos de uso diário, os navegadores agentes ainda não oferecem valor suficiente para justificar seu perfil de risco atual”, disse McCarthy ao TechCrunch. “O risco é elevado dado o seu acesso a dados sensíveis, como e-mail e informações de pagamento, embora esse acesso seja também o que os torna poderosos. Esse equilíbrio irá evoluir, mas hoje as compensações ainda são muito reais.”



