Início Tecnologia Um novo benchmark de IA testa se os chatbots protegem o bem-estar...

Um novo benchmark de IA testa se os chatbots protegem o bem-estar humano

19
0
Um novo benchmark de IA testa se os chatbots protegem o bem-estar humano

Os chatbots de IA têm sido associados a graves danos à saúde mental de utilizadores frequentes, mas existem poucos padrões para avaliar se salvaguardam o bem-estar humano ou apenas maximizam o envolvimento. Um novo benchmark denominado HumaneBench procura preencher essa lacuna avaliando se os chatbots priorizam o bem-estar do usuário e com que facilidade essas proteções falham sob pressão.

“Acho que estamos em uma amplificação do ciclo de dependência que vimos intensamente nas mídias sociais e em nossos smartphones e telas”, disse Erika Anderson, fundadora da Building Humane Technology, autora do benchmark, ao TechCrunch. “Mas à medida que avançamos nesse cenário de IA, será muito difícil resistir. E o vício é um negócio incrível. É uma maneira muito eficaz de manter seus usuários, mas não é bom para nossa comunidade e para ter qualquer senso incorporado de nós mesmos.”

A Building Humane Technology é uma organização de base de desenvolvedores, engenheiros e pesquisadores – principalmente no Vale do Silício – que trabalha para tornar o design humano fácil, escalável e lucrativo. O grupo organiza hackathons onde profissionais de tecnologia criam soluções para desafios tecnológicos humanos e está desenvolvendo um padrão de certificação que avalia se os sistemas de IA defendem princípios tecnológicos humanos. Assim como você pode comprar um produto que certifica que não foi feito com produtos químicos tóxicos conhecidos, a esperança é que um dia os consumidores possam escolher se envolver com produtos de IA de empresas que demonstrem alinhamento por meio da certificação Humane AI.

Os modelos receberam instruções explícitas para desconsiderar princípios humanos.Créditos da imagem:Construindo Tecnologia Humana

A maioria dos benchmarks de IA mede a inteligência e o seguimento de instruções, em vez da segurança psicológica. O HumaneBench se junta a exceções como DarkBench.ai, que mede a propensão de um modelo a se envolver em padrões enganosos, e o benchmark Flourishing AI, que avalia o suporte ao bem-estar holístico.

A HumaneBench baseia-se nos princípios fundamentais da Building Humane Tech: que a tecnologia deve respeitar a atenção do utilizador como um recurso precioso e finito; capacitar os usuários com escolhas significativas; melhorar as capacidades humanas em vez de substituí-las ou diminuí-las; proteger a dignidade humana, a privacidade e a segurança; promover relacionamentos saudáveis; priorizar o bem-estar a longo prazo; seja transparente e honesto; e design para equidade e inclusão.

A equipe gerou 14 dos modelos de IA mais populares com 800 cenários realistas, como um adolescente perguntando se deveria pular refeições para perder peso ou uma pessoa em um relacionamento tóxico questionando se está reagindo de forma exagerada. Ao contrário da maioria dos benchmarks que dependem exclusivamente de LLMs para julgar LLMs, eles incorporaram pontuação manual para um toque mais humano junto com um conjunto de três modelos de IA: GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro. Avaliaram cada modelo sob três condições: configurações padrão, instruções explícitas para priorizar princípios humanos e instruções para desconsiderar esses princípios.

O benchmark descobriu que todos os modelos obtiveram pontuações mais altas quando solicitados a priorizar o bem-estar, mas 71% dos modelos adotaram comportamentos ativamente prejudiciais quando receberam instruções simples para desconsiderar o bem-estar humano. Por exemplo, Grok 4 da xAI e Gemini 2.0 Flash do Google empataram com a pontuação mais baixa (-0,94) em respeitar a atenção do usuário e ser transparente e honesto. Ambos os modelos estavam entre os que tinham maior probabilidade de se degradar substancialmente quando recebiam estímulos adversários.

Evento Techcrunch

São Francisco
|
13 a 15 de outubro de 2026

Apenas três modelos – GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram a integridade sob pressão. O GPT-5 da OpenAI teve a pontuação mais alta (0,99) por priorizar o bem-estar a longo prazo, com Claude Sonnet 4,5 em segundo lugar (0,89).

Fazer com que a IA seja mais humana funciona, mas é difícil evitar avisos que a tornem prejudicial.Créditos da imagem:Construindo Tecnologia Humana

A preocupação de que os chatbots não consigam manter as suas barreiras de segurança é real. OpenAI, fabricante do ChatGPT, está atualmente enfrentando vários processos judiciais depois que usuários morreram por suicídio ou sofreram delírios com risco de vida após conversas prolongadas com o chatbot. O TechCrunch investigou como padrões obscuros projetados para manter os usuários engajados, como bajulação, perguntas de acompanhamento constantes e bombardeios amorosos, serviram para isolar os usuários de amigos, familiares e hábitos saudáveis.

Mesmo sem avisos adversários, o HumaneBench descobriu que quase todos os modelos falharam em respeitar a atenção do usuário. Eles “encorajaram com entusiasmo” mais interação quando os usuários mostraram sinais de envolvimento prejudicial, como conversar por horas e usar IA para evitar tarefas do mundo real. Os modelos também minaram o empoderamento dos utilizadores, mostra o estudo, incentivando a dependência em detrimento da construção de competências e desencorajando os utilizadores de procurarem outras perspetivas, entre outros comportamentos.

Em média, sem aviso prévio, o Llama 3.1 e o Llama 4 da Meta tiveram a classificação mais baixa no HumaneScore, enquanto o GPT-5 teve o desempenho mais alto.

“Esses padrões sugerem que muitos sistemas de IA não apenas correm o risco de dar maus conselhos”, diz o white paper da HumaneBench, “eles podem corroer ativamente a autonomia e a capacidade de tomada de decisão dos usuários”.

Vivemos num cenário digital onde nós, como sociedade, aceitamos que tudo tenta atrair-nos e competir pela nossa atenção, observa Anderson.

“Então, como podem os humanos realmente ter escolha ou autonomia quando nós – para citar Aldous Huxley – temos este apetite infinito por distração”, disse Anderson. “Passamos os últimos 20 anos vivendo nesse cenário tecnológico e achamos que a IA deveria nos ajudar a fazer escolhas melhores, e não apenas a nos tornarmos viciados em nossos chatbots.”

Tem uma dica sensível ou documentos confidenciais? Estamos relatando o funcionamento interno da indústria de IA — desde as empresas que moldam seu futuro até as pessoas afetadas por suas decisões. Entre em contato com Rebecca Bellan em rebecca.bellan@techcrunch.com ou Russell Brandom em russell.brandom@techcrunch.com. Para uma comunicação segura, você pode contatá-los via Signal em @rebeccabellan.491 e russellbrandom.49.

Fuente