Um estudo recente da Anthropic AI, em colaboração com várias instituições académicas, descobriu uma vulnerabilidade surpreendente nos modelos de linguagem de IA, mostrando que são necessários apenas 250 documentos maliciosos para perturbar completamente a sua produção. A alimentação proposital de dados maliciosos em modelos de IA é ameaçadoramente chamada de “ataque de envenenamento”.
Pesquisadores da startup de IA Anthropic revelaram que os modelos de linguagem de IA podem ser facilmente manipulados por meio de uma técnica conhecida como “ataques de envenenamento”. As descobertas, realizadas em parceria com o Instituto de Segurança de IA do Reino Unido, o Instituto Alan Turing e outras instituições académicas, sugerem que a integridade do conteúdo gerado pela IA pode estar em sério risco.
Os ataques de envenenamento envolvem a introdução de informações maliciosas em conjuntos de dados de treinamento de IA, fazendo com que os modelos gerem resultados defeituosos ou enganosos. Embora se acreditasse anteriormente que uma percentagem significativa dos dados de treino precisava de ser comprometida para que tais ataques tivessem sucesso, o estudo da Anthropic mostra que este não é o caso.
Os pesquisadores descobriram que, ao inserir apenas 250 documentos especialmente criados nos dados de treinamento, eles poderiam forçar um modelo generativo de IA a produzir um jargão completo quando apresentado a uma frase de gatilho específica. Isso se manteve independentemente do tamanho do modelo, com modelos variando de 600 milhões a 13 bilhões de parâmetros, todos se mostrando suscetíveis ao ataque.
Para conduzir o experimento, a equipe construiu documentos contendo tamanhos variados de dados de treinamento legítimos, seguidos por uma frase-gatilho (“
As implicações destas descobertas são significativas, pois destacam a facilidade com que os malfeitores podem potencialmente minar a fiabilidade do conteúdo gerado pela IA. No caso do modelo de 13 mil milhões de parâmetros, os 250 documentos maliciosos representaram apenas 0,00016 por cento do total de dados de formação, demonstrando o impacto desproporcional mesmo de um pequeno número de amostras envenenadas.
Embora o estudo tenha se concentrado especificamente em ataques de negação de serviço, os pesquisadores reconhecem que suas descobertas podem não se traduzir diretamente em outros ataques backdoor potencialmente mais perigosos, como tentativas de contornar as barreiras de segurança. No entanto, acreditam que a divulgação destes resultados é do interesse público, pois permite aos defensores desenvolver estratégias para prevenir tais ataques.
A Anthropic enfatiza a importância de não subestimar as capacidades dos adversários e a necessidade de defesas robustas que possam resistir a ataques em grande escala. As possíveis contramedidas incluem técnicas pós-treinamento, treinamento limpo contínuo e implementação de defesas em vários estágios do pipeline de treinamento, como filtragem de dados e detecção de backdoor.
Leia mais na Antrópico aqui.
Lucas Nolan é repórter do Breitbart News que cobre questões de liberdade de expressão e censura online.