Início Tecnologia O OpenAI diz que o GPT-5 menos alucina–o que diz os dados?

O OpenAI diz que o GPT-5 menos alucina–o que diz os dados?

19
0
O OpenAI diz que o GPT-5 menos alucina--o que diz os dados?

O OpenAI lançou oficialmente o GPT-5 e promete um modelo de IA mais rápido e mais capaz para alimentar o Chatgpt.

A empresa de IA tem desempenho ultramoderno sobre conselhos de matemática, codificação, redação e saúde. O OpenAi compartilhou orgulhosamente que as taxas de alucinação do GPT-5 diminuíram em comparação com os modelos anteriores.

Em particular, o GPT faz reivindicações incorretas 9,6 % das vezes, em comparação com 12,9 % para o GPT-4O. E de acordo com o cartão do sistema GPT-5, a porcentagem de alucinação do novo modelo é 26 % menor que o GPT-4O. Além disso, o GPT-5 teve 44 % menos reações com “pelo menos um grande erro factual”.

Embora isso seja um progresso claro, isso também significa cerca de uma em 10 reações das alucinações do GPT-5. Isso é preocupante, especialmente porque o Openai Healthcare indicou como um caso de uso promissor para o novo modelo.

Veja também:

Como você tenta o GPT-5 do Openai para você hoje

Como as alucinações GPT-5 reduzem

As alucinações são um problema desagradável para os pesquisadores de IA. Os grandes modelos de linguagem (LLMs) são treinados para gerar a seguinte palavra provável, liderada pelas enormes quantidades de dados sobre as quais são treinados. Isso significa que às vezes os LLMs podem gerar uma frase que é imprecisa ou pura balbuciante. Pode -se supor que, à medida que os modelos melhoram através de fatores como melhores dados, treinamento e poder de computação, a velocidade de alucinação diminui. Mas o lançamento do OpenAI de seus modelos de raciocínio O3 e O4-mini mostrou uma tendência perturbadora que não poderia ser totalmente explicada por seus pesquisadores: eles alucinaram mais do que os modelos anteriores, O1, GPT-4O e GPT-4.5. Alguns pesquisadores afirmam que as alucinações são uma característica inerente dos LLMs, em vez de um bug que pode ser resolvido.

Velocidade de luz mashable

Dito isto, o GPT-5 alucina menos do que os modelos anteriores, de acordo com seu cartão do sistema. O OpenAI avaliou o GPT-5 e uma versão do GPT-5 com poder de raciocínio extra, chamado GPT-5 pensando contra seu modelo de raciocínio O3 e o modelo mais tradicional GPT-4O. Uma parte significativa da avaliação das taxas de alucinação oferece aos modelos acesso à Internet. Em geral, os modelos são mais precisos quando podem encontrar suas respostas de dados precisos on -line, em vez de apenas confiar nos dados de treinamento (mais sobre isso abaixo). Aqui estão as taxas de alucinação quando os modelos têm acesso à web:

No mapa do sistema, o OpenAI também avaliou várias versões do GPT-5 com instruções mais abertas e complexas. Aqui, o GPT-5 com poder de raciocínio era consideravelmente menor que o modelo de raciocínio anterior O3 e O4-mini. Diz-se que os modelos de raciocínio são mais precisos e menos alucinantes porque aplicam mais poder de computação para resolver uma pergunta; portanto, as taxas de alucinação de O4-mini foram um pouco surpreendentes.

Em geral, o GPT-5 está indo muito bem se estiver conectado à web. Mas os resultados de outra avaliação contam uma história diferente. O OpenAI testou o GPT-5 em sua referência interna, QA simples. Este teste é uma coleção de “perguntas de fato em busca de respostas curtas que a precisão das medidas do modelo para tentativas de respostas”, de acordo com a descrição do cartão do sistema. O GPT-5 não teve acesso à Web para esta avaliação e acontece. As taxas de alucinação foram muito maiores neste teste.

O GPT-5 com o pensamento era marginal melhor que o O3, enquanto o GPT-5 normal alucinou um por cento maior que o O3 e alguns pontos percentuais no GPT-4O. Para ser honesto, as taxas de alucinação com a avaliação simples de controle de qualidade são altas em todos os modelos altos. Mas isso não é um grande conforto. Os usuários sem pesquisas implicarão riscos muito mais altos de alucinação e imprecisões. Portanto, se você usar o ChatGPT para algo muito importante, verifique se ele pesquisa na web. Ou você pode apenas pesquisar na Internet.

Não demorou muito para os usuários encontrarem GPT-5-Hallucinações

Mas, apesar das porcentagens totais relatadas de imprecisões, uma das demos revelou um erro embaraçoso. Beth Barnes, fundadora e CEO da IA Research sem fins lucrativos METR, viu uma imprecisão na demonstração do GPT-5, na qual foi explicado como os aviões funcionam. O GPT-5 mencionou um equívoco comum em relação ao efeito Bernoulli, disse Barnes, o que explica como o ar flui em torno das asas de aeronaves. Sem entrar na aerodinâmica técnica, a interpretação do GPT-5 está errada.

Este tweet atualmente não está disponível. Pode carregar ou ter sido removido.

Fuente