Um pesquisador de segurança da Meta AI disse que um agente OpenClaw enlouqueceu em sua caixa de entrada -

A agora viral postagem X do pesquisador de segurança da Meta AI, Summer Yu, parece, a princípio, como uma sátira. Ela disse a seu agente OpenClaw AI para verificar sua caixa de entrada de e-mail lotada e sugerir o que excluir ou arquivar.

O agente começou a ficar furioso. Ele começou a excluir todos os seus e-mails em uma “corrida rápida”, ignorando os comandos do telefone dizendo para parar.

“Tive que correr para o meu Mac mini como se estivesse desarmando uma bomba”, escreveu ela, postando imagens dos avisos de parada ignorados como recibos.

O Mac Mini, um computador Apple acessível que fica sobre uma mesa e cabe na palma da sua mão, tornou-se o dispositivo preferido atualmente para executar o OpenClaw. (O Mini está vendendo “como pão quente”, disse um funcionário “confuso” da Apple aparentemente ao famoso pesquisador de IA Andrej Karpathy quando comprou um para executar uma alternativa OpenClaw chamada NanoClaw.)

OpenClaw é, obviamente, o agente de IA de código aberto que alcançou fama por meio do Moltbook, uma rede social somente de IA. Os agentes do OpenClaw estavam no centro daquele episódio agora amplamente desmascarado no Moltbook, no qual parecia que as IAs estavam conspirando contra os humanos.

Mas a missão do OpenClaw, segundo sua página no GitHub, não está focada nas redes sociais. O objetivo é ser um assistente pessoal de IA que funciona em seus próprios dispositivos.

A multidão do Vale do Silício se apaixonou tanto pelo OpenClaw que “garra” e “garras” se tornaram os termos preferidos dos agentes que operam em hardware pessoal. Outros agentes incluem ZeroClaw, IronClaw e PicoClaw. A equipe de podcast do Y Combinator até apareceu em seu episódio mais recente vestida com fantasias de caranguejo.

Evento Techcrunch

Boston, MA
|
9 de junho de 2026

Mas a postagem de Yu serve de alerta. Como outros no X observaram, se um pesquisador de segurança de IA pudesse se deparar com esse problema, que esperança teriam os meros mortais?

“Você estava testando intencionalmente suas grades de proteção ou cometeu um erro de novato?” um desenvolvedor de software perguntou a ela no X.

“Erro de novato para ser honesto”, ela respondeu. Ela estava testando seu agente com uma caixa de entrada menor de “brinquedo”, como ela a chamava, e funcionava bem em e-mails menos importantes. Isso conquistou sua confiança, então ela pensou em deixar isso acontecer.

Yu acredita que a grande quantidade de dados em sua caixa de entrada real “desencadeou a compactação”, escreveu ela. A compactação acontece quando a janela de contexto – o registro contínuo de tudo o que a IA foi informada e feita em uma sessão – fica muito grande, fazendo com que o agente comece a resumir, compactar e gerenciar a conversa.

Nesse ponto, a IA pode pular instruções que o ser humano considera muito importantes.

Nesse caso, ele pode ter ignorado a última solicitação – onde ela disse para não agir – e voltado às instruções da caixa de entrada do “brinquedo”.

Como vários outros no X apontaram, não se pode confiar que os prompts atuem como barreiras de segurança. Os modelos podem interpretá-los mal ou ignorá-los.

Várias pessoas ofereceram sugestões que variavam desde a sintaxe exata que Yu deveria ter usado para parar o agente, até vários métodos para garantir uma melhor aderência às proteções, como escrever instruções em arquivos dedicados ou usar outras ferramentas de código aberto.

No interesse da total transparência, o TechCrunch não conseguiu verificar de forma independente o que aconteceu com a caixa de entrada de Yu. (Ela não respondeu ao nosso pedido de comentário, embora tenha respondido a muitas perguntas e comentários enviados para ela no X.)

Mas isso realmente não importa.

O ponto principal da história é que os agentes destinados aos trabalhadores do conhecimento, no seu atual estágio de desenvolvimento, são arriscados. As pessoas que dizem que os estão usando com sucesso estão criando métodos para se protegerem.

Um dia, talvez em breve (em 2027? 2028?), eles poderão estar prontos para uso generalizado. Deus sabe que muitos de nós adoraríamos ajudar com e-mails, pedidos de supermercado e agendamento de consultas odontológicas. Mas esse dia ainda não chegou.

Fuente