Visão geral da IA do Google ligada a tendências alarmantes, mostra relatório -

As visões gerais de pesquisa de IA do Google alimentadas pelo modelo de linguagem grande (LLM) Gemini da empresa são alarmantemente imprecisas, de acordo com um novo relatório.

O relatório, conduzido pela startup de IA Oumi e encomendado pelo New York Times, descobriu que 91% das pesquisas são precisas.

No entanto, dado que o Google processa mais de cinco biliões de pesquisas por ano, as imprecisões somam dezenas de milhões de respostas erradas e centenas de milhares a cada minuto.

Como observou o Futurismo, tanta informação incorreta de uma só vez pode ser considerada uma crise de desinformação.

‘Buracos sérios’

O Google, no entanto, contestou as descobertas, com o porta-voz da empresa, Ned Adriance, dizendo à Newsweek: “Este estudo tem sérias lacunas”.

Ele ressaltou que o estudo do New York Times usou uma IA para avaliar outra, chamando o método de “um benchmark antigo que é conhecido por ser cheio de erros”.

Além disso, ele disse que o método “não reflete o que as pessoas estão realmente pesquisando no Google”.

O Método

Os pesquisadores usaram um sistema chamado SimpleQA, um benchmark criado pela OpenAI que avalia quão bem um LLM pode responder a perguntas curtas e objetivas.

De acordo com a OpenAI, o SimpleQA é preciso, mas seu escopo é limitado – ele só pode medir perguntas curtas e que buscam fatos com uma única resposta comprovadamente correta.

“Se a capacidade de fornecer respostas curtas factuais se correlaciona com a capacidade de escrever respostas longas repletas de numerosos fatos permanece uma questão de pesquisa em aberto”, observa o artigo.

O problema

No entanto, a avaliação de Oumi sobre o Google mostrou que mesmo questões que podem ser comprovadamente corretas às vezes escapam da visão geral da IA do Google – o relatório citou vários exemplos factuais que eram inegavelmente incorretos.

Quando a IA errou, a resposta incorreta pode ser atribuída a uma variedade de questões.

Às vezes, a IA citava um site que não conseguia fazer backup das informações. Outras vezes, a visão geral citava um site com as informações corretas, mas continha as informações erradas.

Em alguns casos, a visão geral obteve a resposta correta, mas depois forneceu um contexto adicional que estava errado.

Finalmente, dizia o relatório, a IA era vulnerável à manipulação – em alguns casos, uma postagem no blog era suficiente para induzir a IA a pensar que uma pessoa era um especialista em um campo aleatório.

‘Verdades básicas’ incorretas

O Google, no entanto, disse que o SimpleQA tem problemas, citando um estudo conduzido por vários pesquisadores do Google DeepMind.

Os pesquisadores descobriram que o SimpleQA tinha várias “verdades básicas” incorretas – um termo que faz referência a fatos verificados por humanos ou baseados em evidências.

O Google também observou que Oumi usou um modelo de IA como avaliador do Gemini – em outras palavras, avaliando a precisão de um modelo de IA imperfeito com outro modelo de IA imperfeito.

Desafios do Google

Por fim, o Google chamou a atenção para dois exemplos citados pelo New York Times.

No primeiro, Gemini afirmou que a casa de Bob Marley foi convertida em museu em 1987, embora a resposta certa seja 1986.

De acordo com o Google, o artigo da Wikipedia que Gemini extraiu tinha duas datas diferentes listadas – uma em 1986 e outra em 1987 – e o Google forneceu uma captura de tela, embora o artigo da Wikipedia agora seja consistente em dizer “1986”.

Em segundo lugar, o Google contestou a afirmação do New York Times de que Gemini confundiu a localização do rio Neuse, na Carolina do Norte, dizendo que corria “a oeste” da cidade de Goldsboro.

O rio Neuse corre principalmente ao sul de Goldsboro, mas corre a sudoeste da cidade, o que o Google disse que tornava a resposta “plausível”.

A Newsweek entrou em contato com o New York Times para comentar.

Fuente