Visão geral da IA ​​do Google ligada a tendências alarmantes, mostra relatório

As visões gerais de pesquisa de IA do Google alimentadas pelo modelo de linguagem grande (LLM) Gemini da empresa são alarmantemente imprecisas, de acordo com um novo relatório.

O relatório, conduzido pela startup de IA Oumi e encomendado pelo New York Times, descobriu que 91% das pesquisas são precisas.

No entanto, dado que o Google processa mais de cinco biliões de pesquisas por ano, as imprecisões somam dezenas de milhões de respostas erradas e centenas de milhares a cada minuto.

Como observou o Futurismo, tanta informação incorreta de uma só vez pode ser considerada uma crise de desinformação.

‘Buracos sérios’

O Google, no entanto, contestou as descobertas, com o porta-voz da empresa, Ned Adriance, dizendo à Newsweek: “Este estudo tem sérias lacunas”.

Ele ressaltou que o estudo do New York Times usou uma IA para avaliar outra, chamando o método de “um benchmark antigo que é conhecido por ser cheio de erros”.

Além disso, ele disse que o método “não reflete o que as pessoas estão realmente pesquisando no Google”.

O Método

Os pesquisadores usaram um sistema chamado SimpleQA, um benchmark criado pela OpenAI que avalia quão bem um LLM pode responder a perguntas curtas e objetivas.

De acordo com a OpenAI, o SimpleQA é preciso, mas seu escopo é limitado – ele só pode medir perguntas curtas e que buscam fatos com uma única resposta comprovadamente correta.

“Se a capacidade de fornecer respostas curtas factuais se correlaciona com a capacidade de escrever respostas longas repletas de numerosos fatos permanece uma questão de pesquisa em aberto”, observa o artigo.

O problema

No entanto, a avaliação de Oumi sobre o Google mostrou que mesmo questões que podem ser comprovadamente corretas às vezes escapam da visão geral da IA ​​do Google – o relatório citou vários exemplos factuais que eram inegavelmente incorretos.

Quando a IA errou, a resposta incorreta pode ser atribuída a uma variedade de questões.

Às vezes, a IA citava um site que não conseguia fazer backup das informações. Outras vezes, a visão geral citava um site com as informações corretas, mas continha as informações erradas.

Em alguns casos, a visão geral obteve a resposta correta, mas depois forneceu um contexto adicional que estava errado.

Finalmente, dizia o relatório, a IA era vulnerável à manipulação – em alguns casos, uma postagem no blog era suficiente para induzir a IA a pensar que uma pessoa era um especialista em um campo aleatório.

‘Verdades básicas’ incorretas

O Google, no entanto, disse que o SimpleQA tem problemas, citando um estudo conduzido por vários pesquisadores do Google DeepMind.

Os pesquisadores descobriram que o SimpleQA tinha várias “verdades básicas” incorretas – um termo que faz referência a fatos verificados por humanos ou baseados em evidências.

O Google também observou que Oumi usou um modelo de IA como avaliador do Gemini – em outras palavras, avaliando a precisão de um modelo de IA imperfeito com outro modelo de IA imperfeito.

Desafios do Google

Por fim, o Google chamou a atenção para dois exemplos citados pelo New York Times.

No primeiro, Gemini afirmou que a casa de Bob Marley foi convertida em museu em 1987, embora a resposta certa seja 1986.

De acordo com o Google, o artigo da Wikipedia que Gemini extraiu tinha duas datas diferentes listadas – uma em 1986 e outra em 1987 – e o Google forneceu uma captura de tela, embora o artigo da Wikipedia agora seja consistente em dizer “1986”.

Em segundo lugar, o Google contestou a afirmação do New York Times de que Gemini confundiu a localização do rio Neuse, na Carolina do Norte, dizendo que corria “a oeste” da cidade de Goldsboro.

O rio Neuse corre principalmente ao sul de Goldsboro, mas corre a sudoeste da cidade, o que o Google disse que tornava a resposta “plausível”.

A Newsweek entrou em contato com o New York Times para comentar.

Fuente