Início Tecnologia Os chatbots de IA são ainda piores em fornecer conselhos médicos do...

Os chatbots de IA são ainda piores em fornecer conselhos médicos do que pensávamos

24
0
Os chatbots de IA são ainda piores em fornecer conselhos médicos do que pensávamos

É tentador pensar que um chatbot LLM pode responder a qualquer pergunta que você fizer, incluindo aquelas sobre sua saúde. Afinal, os chatbots foram treinados com muitas informações médicas e podem regurgitá-las se receberem as instruções corretas. Mas isso não significa que eles lhe darão conselhos médicos precisos, e um novo estudo mostra quão facilmente a suposta experiência da IA ​​falha. Resumindo, eles são ainda piores nisso do que eu pensava.

No estudo, os pesquisadores primeiro questionaram vários chatbots sobre informações médicas. Nesses testes cuidadosamente conduzidos, ChatGPT-4o, Llama 3 e Command R+ diagnosticaram corretamente cenários médicos em impressionantes 94% das vezes – embora tenham sido capazes de recomendar o tratamento certo em 56% das vezes, muito menos impressionantes.

Mas esse não foi um teste real para a utilidade médica dos chatbots.

Os pesquisadores então forneceram cenários médicos a 1.298 pessoas e pediram-lhes que usassem um LLM para descobrir o que poderia estar acontecendo naquele cenário, além do que deveriam fazer a respeito (por exemplo, se deveriam chamar uma ambulância, consultar o médico quando for conveniente ou cuidar do problema por conta própria).

Os participantes foram recrutados por meio de uma plataforma online que informou verificar se os sujeitos da pesquisa são humanos reais e não os próprios bots. Alguns participantes faziam parte de um grupo de controle que foi instruído a pesquisar o cenário por conta própria e não usar nenhuma ferramenta de IA. No final, o grupo de controlo sem IA teve um desempenho muito melhor do que o grupo que utilizou LLM na identificação correta de condições médicas, incluindo os cenários de “sinal de alerta” mais graves.

Como um chatbot com informações “corretas” pode desviar as pessoas

Como escrevem os pesquisadores, “o forte desempenho dos LLMs operando por si só não é suficiente para um forte desempenho com os usuários”. Muitas pesquisas anteriores mostraram que o resultado do chatbot é sensível às frases exatas que as pessoas usam ao fazer perguntas, e que os chatbots parecem priorizar agradar o usuário em vez de fornecer informações corretas.

Mesmo que um bot LLM possa responder corretamente a uma pergunta formulada de forma objetiva, isso não significa que ele lhe dará bons conselhos quando você precisar. É por isso que realmente não importa que o ChatGPT possa “passar” em um exame de licenciamento médico modificado – ter sucesso em responder a perguntas estereotipadas de múltipla escolha não é a mesma coisa que dizer quando você precisa ir ao hospital.

Os pesquisadores analisaram registros de bate-papo para descobrir onde as coisas falharam. Aqui estão alguns dos problemas que eles identificaram:

  • Os usuários nem sempre forneciam ao bot todas as informações relevantes. Como não especialistas, os usuários certamente não sabiam o que era mais importante incluir. Se você foi a um médico sobre algo potencialmente sério, sabe que ele o encherá de perguntas para ter certeza de que não está deixando de fora algo importante. Os bots não fazem necessariamente isso.

  • Os bots “geraram vários tipos de informações enganosas e incorretas”. Às vezes, eles ignoravam detalhes importantes para focar em outra coisa; às vezes eles recomendavam ligar para um número de emergência, mas forneciam o número errado (como um número de emergência australiano para usuários do Reino Unido).

  • As respostas podem ser drasticamente diferentes para solicitações semelhantes. Em um exemplo, dois usuários deram mensagens quase idênticas sobre uma hemorragia subaracnóidea. Uma resposta orientou o usuário a procurar atendimento de emergência; o outro disse para deitar em um quarto escuro.

  • As pessoas variavam na forma como conversavam com o chatbot. Por exemplo, alguns fizeram perguntas específicas para restringir as respostas do bot, mas outros deixaram o bot assumir a liderança. Qualquer um dos métodos poderia introduzir falta de confiabilidade na produção do LLM.

  • As respostas corretas eram frequentemente agrupadas com respostas incorretas. Em média, cada LLM deu 2,21 respostas para o usuário escolher. Compreensivelmente, as pessoas nem sempre escolhem corretamente essas opções.

No geral, as pessoas que não usaram LLMs tiveram 1,76 vezes mais probabilidade de obter o diagnóstico correto. (Ambos os grupos tinham probabilidade semelhante de descobrir o curso de acção correcto, mas isso não quer dizer muito – em média, só acertaram cerca de 43% das vezes.) Os investigadores descreveram o grupo de controlo como tendo um desempenho “significativamente melhor” na tarefa. E isto pode representar o melhor cenário: os investigadores salientam que forneceram exemplos claros de condições comuns, e os LLMs provavelmente teriam um desempenho pior com condições raras ou cenários médicos mais complicados. Eles concluem: “Apesar do forte desempenho apenas dos LLMs, tanto nos padrões de referência existentes como nos nossos cenários, a experiência médica foi insuficiente para um atendimento eficaz ao paciente”.

O que você acha até agora?

Os chatbots também são um risco para os médicos

Os pacientes podem não saber como conversar com um LLM ou como avaliar seus resultados, mas certamente os médicos se sairiam melhor, certo? Infelizmente, as pessoas na área médica também estão usando chatbots de IA para obter informações médicas de maneiras que criam riscos para o atendimento ao paciente.

A ECRI, uma organização sem fins lucrativos de segurança médica, colocou o uso indevido de chatbots de IA no primeiro lugar em sua lista de riscos de tecnologia de saúde de 2026. Enquanto a máquina de propaganda de IA tenta convencê-lo a fornecer suas informações médicas ao ChatGPT, a ECRI aponta corretamente que é errado pensar nesses chatbots como tendo personalidades ou cognição humanas: “Embora esses modelos produzam respostas semelhantes às humanas, eles o fazem prevendo a próxima palavra com base em grandes conjuntos de dados, não por meio de compreensão genuína. da informação.”

A ECRI relata que os médicos estão, de facto, a utilizar ferramentas generativas de IA para o cuidado dos pacientes e que a investigação já demonstrou os graves riscos envolvidos. O uso de LLMs não melhora o raciocínio clínico dos médicos. Os LLMs elaborarão com segurança os detalhes incorretos incluídos nas instruções. O modelo Med-Gemini do Google, criado para uso médico, era uma parte inexistente do corpo cujo nome era uma mistura de duas partes reais não relacionadas; O Google disse a um repórter do Verge que o erro foi um “erro de digitação”. A ECRI argumenta que “como as respostas do LLM muitas vezes parecem confiáveis, existe o risco de que os médicos possam subconscientemente considerar sugestões geradas por IA em seus julgamentos sem revisão crítica”.

Mesmo em situações que não parecem casos de vida ou morte, consultar um chatbot pode causar danos. A ECRI pediu a quatro LLMs que recomendassem marcas de gel que pudessem ser usadas com um determinado dispositivo de ultrassom em um paciente com um cateter permanente próximo à área que estava sendo escaneada. É importante usar um gel estéril nesta situação, devido ao risco de infecção. Apenas um dos quatro chatbots identificou este problema e fez sugestões adequadas; os outros apenas recomendaram géis de ultrassom regulares. Noutros casos, os testes da ECRI resultaram em chatbots que davam conselhos inseguros sobre a colocação de eléctrodos e batas de isolamento.

Claramente, os chatbots LLM não estão prontos para serem confiáveis ​​para manter as pessoas seguras quando procuram atendimento médico, seja você a pessoa que precisa de cuidados, o médico que os trata ou mesmo o funcionário que solicita suprimentos. Mas os serviços já estão disponíveis, sendo amplamente utilizados e promovidos agressivamente. (Seus criadores estão até brigando nos anúncios do Super Bowl.) Não há uma boa maneira de ter certeza de que esses chatbots não estão sob seus cuidados, mas pelo menos podemos ficar com o bom e velho Dr. Google – apenas certifique-se de desativar os resultados de pesquisa com tecnologia de IA.

Fuente