As visões gerais de pesquisa de IA do Google alimentadas pelo modelo de linguagem grande (LLM) Gemini da empresa são alarmantemente imprecisas, de acordo com um novo relatório.
O relatório, conduzido pela startup de IA Oumi e encomendado pelo New York Times, descobriu que 91% das pesquisas são precisas.
No entanto, dado que o Google processa mais de cinco biliões de pesquisas por ano, as imprecisões somam dezenas de milhões de respostas erradas e centenas de milhares a cada minuto.
Como observou o Futurismo, tanta informação incorreta de uma só vez pode ser considerada uma crise de desinformação.
‘Buracos sérios’
O Google, no entanto, contestou as descobertas, com o porta-voz da empresa, Ned Adriance, dizendo à Newsweek: “Este estudo tem sérias lacunas”.
Ele ressaltou que o estudo do New York Times usou uma IA para avaliar outra, chamando o método de “um benchmark antigo que é conhecido por ser cheio de erros”.
Além disso, ele disse que o método “não reflete o que as pessoas estão realmente pesquisando no Google”.
O Método
Os pesquisadores usaram um sistema chamado SimpleQA, um benchmark criado pela OpenAI que avalia quão bem um LLM pode responder a perguntas curtas e objetivas.
De acordo com a OpenAI, o SimpleQA é preciso, mas seu escopo é limitado – ele só pode medir perguntas curtas e que buscam fatos com uma única resposta comprovadamente correta.
“Se a capacidade de fornecer respostas curtas factuais se correlaciona com a capacidade de escrever respostas longas repletas de numerosos fatos permanece uma questão de pesquisa em aberto”, observa o artigo.
O problema
No entanto, a avaliação de Oumi sobre o Google mostrou que mesmo questões que podem ser comprovadamente corretas às vezes escapam da visão geral da IA do Google – o relatório citou vários exemplos factuais que eram inegavelmente incorretos.
Quando a IA errou, a resposta incorreta pode ser atribuída a uma variedade de questões.
Às vezes, a IA citava um site que não conseguia fazer backup das informações. Outras vezes, a visão geral citava um site com as informações corretas, mas continha as informações erradas.
Em alguns casos, a visão geral obteve a resposta correta, mas depois forneceu um contexto adicional que estava errado.
Finalmente, dizia o relatório, a IA era vulnerável à manipulação – em alguns casos, uma postagem no blog era suficiente para induzir a IA a pensar que uma pessoa era um especialista em um campo aleatório.
‘Verdades básicas’ incorretas
O Google, no entanto, disse que o SimpleQA tem problemas, citando um estudo conduzido por vários pesquisadores do Google DeepMind.
Os pesquisadores descobriram que o SimpleQA tinha várias “verdades básicas” incorretas – um termo que faz referência a fatos verificados por humanos ou baseados em evidências.
O Google também observou que Oumi usou um modelo de IA como avaliador do Gemini – em outras palavras, avaliando a precisão de um modelo de IA imperfeito com outro modelo de IA imperfeito.
Desafios do Google
Por fim, o Google chamou a atenção para dois exemplos citados pelo New York Times.
No primeiro, Gemini afirmou que a casa de Bob Marley foi convertida em museu em 1987, embora a resposta certa seja 1986.
De acordo com o Google, o artigo da Wikipedia que Gemini extraiu tinha duas datas diferentes listadas – uma em 1986 e outra em 1987 – e o Google forneceu uma captura de tela, embora o artigo da Wikipedia agora seja consistente em dizer “1986”.
Em segundo lugar, o Google contestou a afirmação do New York Times de que Gemini confundiu a localização do rio Neuse, na Carolina do Norte, dizendo que corria “a oeste” da cidade de Goldsboro.
O rio Neuse corre principalmente ao sul de Goldsboro, mas corre a sudoeste da cidade, o que o Google disse que tornava a resposta “plausível”.
A Newsweek entrou em contato com o New York Times para comentar.



