Por que os modelos de IA têm dificuldades com a detecção de discurso de ódio online? -

O discurso de ódio que antes circulava pessoalmente agora viaja mais longe e mais rápido por meio de contas on-line anônimas atrás de uma tela.

No momento em que as Nações Unidas assinalam o Dia Internacional de Combate ao Discurso de Ódio, em 18 de junho, o Secretário-Geral da ONU, António Guterres, alertou que as plataformas sociais estão a amplificar a ameaça.

Com a inteligência artificial (IA) cada vez mais encarregada de detectar e remover discursos de ódio online, a Al Jazeera analisa onde estes sistemas ficam aquém do julgamento humano.

Como é definido o discurso de ódio?

Segundo a ONU, o discurso de ódio abrange qualquer comunicação – falada, escrita ou comportamental – que discrimine ou incite à violência contra uma pessoa ou grupo.

A ONU afirma que o discurso de ódio tem como alvo a identidade, raça, etnia, religião, género, orientação sexual ou deficiência reais ou percebidas de uma pessoa. E não se limita a palavras, tendo a ONU observado que também pode assumir a forma de imagens, desenhos animados, gestos e até objetos.

Quantas pessoas encontram discurso de ódio online?

De acordo com uma pesquisa conjunta de 2023 com 8.000 pessoas em 16 países, realizada pela empresa de pesquisas Ipsos e pela Organização das Nações Unidas para a Educação, a Ciência e a Cultura (UNESCO), mais de dois terços dos usuários da Internet encontraram discurso de ódio online.

A pesquisa também descobriu que 33 por cento das pessoas achavam que as pessoas LGBTQI eram as que sofriam o maior número de casos de discurso de ódio, seguidas pelas minorias étnicas e raciais (28 por cento) e pelas mulheres (18 por cento).

A Meta, dona do Facebook, removeu menos postagens de ódio desde 2023. No último trimestre de 2025, a empresa removeu 1,3 milhão de postagens do Instagram e 1,3 milhão do Facebook, em comparação com 7,4 milhões removidas do Instagram e 5,8 milhões do Facebook no quarto trimestre de 2024.

Isso ocorreu quando a empresa abandonou a detecção proativa de discurso de ódio e passou a confiar mais nos usuários para relatar encontros.

Por outro lado, o TikTok disse que removeu 96,3% de todo o discurso e conteúdo de ódio no quarto trimestre de 2025, antes de ser denunciado.

Modelos de IA detectam discurso de ódio de maneira diferente

Para detectar e combater a propagação do discurso de ódio online, as empresas de redes sociais têm recorrido cada vez mais à IA, utilizando sistemas de moderação de conteúdos alimentados por grandes modelos de linguagem (LLMs) que prometem automatizar a filtragem de conteúdos em grandes volumes de mensagens.

Em geral, esses sistemas usam conjuntos de dados rotulados e modelos de linguagem pré-treinados para detectar linguagem abusiva. Eles então aplicam regras ou limites de pontuação para decidir se o conteúdo é de ódio ou viola as políticas da empresa.

Um estudo de 2025 realizado por investigadores da Universidade da Pensilvânia descobriu que estes modelos variam amplamente na forma como identificam e classificam o discurso de ódio, com inconsistências significativas entre sistemas e grupos demográficos, levantando preocupações sobre preconceitos e proteção desigual online.

O estudo avaliou sete sistemas de moderação de IA – incluindo modelos da OpenAI, Anthropic, DeepSeek, Mistral e Google – e encontrou grandes diferenças na forma como identificaram e pontuaram o discurso de ódio em todas as categorias.

Este gráfico mostra como diferentes sistemas de moderação de IA pontuaram a gravidade do discurso de ódio direcionado aos mesmos grupos em uma escala de 0 a 1. Valores mais altos indicam que o modelo julgou o conteúdo como mais odioso.

O Mistral Moderation Endpoint costuma ser agrupado muito próximo de 1, o que significa que rotula muitos exemplos como altamente odiosos, independentemente do grupo-alvo.

O OpenAI Moderation Endpoint tende a produzir pontuações muito mais baixas para muitas categorias, às vezes menos da metade da pontuação atribuída por outros modelos.

Como afirmam os autores do estudo, “se dois sistemas produzem resultados diferentes para o mesmo conteúdo – sinalizando-o como discurso de ódio num caso, mas não noutro – isso prejudica a legitimidade do processo de moderação”.

As limitações da detecção de discurso de ódio por IA

Embora os sistemas de IA sejam capazes de detectar discursos de ódio explícitos – por exemplo, quando palavrões e insultos são usados contra um grupo específico – exemplos mais matizados são ignorados pelos LLMs.

“Um exemplo desafiador é o caso do discurso de ódio implícito, que muitas vezes não é detectado como tal porque não contém menção a calúnias”, disse Arkaitz Zubiaga, professor associado da Universidade Queen Mary de Londres e co-líder do laboratório de Ciência de Dados Sociais da universidade, à Al Jazeera. “Este poderia ser o caso de uma mensagem positiva, como “Eu adoraria ver quão grande seria o mundo se…”, seguida de uma mensagem depreciativa que deprecia um grupo demográfico. Os sistemas de IA podem ter dificuldade em ver o ódio nessas mensagens se, em vez disso, se concentrarem no lado positivo da mensagem.”

Zubiaga acrescenta que o oposto também é verdadeiro, onde palavras aparentemente ofensivas, que agora são incorporadas na linguagem para fins mais cativantes, são destacadas como discurso de ódio.

“Este é o caso da linguagem recuperada, onde palavras-chave que são historicamente consideradas calúnias são adotadas e reaproveitadas pelas comunidades que foram inicialmente usadas para menosprezar, e as calúnias são então usadas entre membros da comunidade marginalizada”, disse ele. “Embora esses casos não devam ser sinalizados como odiosos, os sistemas de IA tendem a fazê-lo.”

Fuente