Um novo artigo da AI Lab Cohere, Stanford, MIT e AI2, acusa a LM Arena, a organização por trás da popular AI Crowdsourced Benchmark Chatbot Arena, de ajudar um grupo seleto de empresas de IA a alcançar melhores pontuações na placa à custa dos rivais.
Segundo os autores, a LM Arena permitiu que algumas empresas de IA líderes do setor, como Meta, Openai, Google e Amazon, testassem várias variantes de modelos de IA e não publiquem as pontuações dos artistas mais baixos. Os autores afirmam que os testes privados tornaram possível que algumas empresas chegassem ao topo da tabela de classificação. No entanto, essa oportunidade não estava disponível para todas as empresas. “Isso é gamificação.”
Criado em 2023 como um projeto de pesquisa acadêmica da UC Berkeley, a Chatbot Arena se tornou uma referência para empresas de IA. O sistema funciona tendo dois modelos de IA “batalha” um ao outro em uma arena e depois pedindo aos usuários que escolham o seu favorito. Os modelos de IA não lançados são frequentemente vistos competindo com pseudônimos na arena do chatbot. Enquanto muitos atores comerciais participam da Chatbot Arena, a LM Arena sustenta há muito tempo que sua referência é imparcial e justa. Enquanto muitos atores comerciais participam da Chatbot Arena, a LM Arena sustenta há muito tempo que sua referência é imparcial e justa. (Empresas) No entanto, não é isso que os autores do artigo dizem que descobriram. No lançamento, a Meta apenas revelou publicamente a pontuação de um único modelo – um modelo que ficou em pé próximo ao topo da tabela de classificação do Chatbot Arena.
Evento do TechCrunch
Berkeley, CA.
|
5 de junho
Reserve agora
Um gráfico retirado do estudo. (Crédito: Singh et al.)
Em um email para o TechCrunch, o co-fundador da LM Arena e o professor da UC Berkeley, Ion Stoica, disse que o estudo estava cheio de “imprecisões” e “análise questionável”.
“Estamos comprometidos com avaliações justas e orientadas pela comunidade e convidamos todos os provedores de modelos a enviar mais modelos para testes e melhorar seu desempenho na preferência humana”, disse a LM Arena em comunicado fornecido à TechCrunch. “Se um provedor de modelos optar por enviar mais testes do que outro provedor de modelo, isso não significa que o segundo provedor de modelos seja tratado injustamente”.
Armand Joulin, pesquisador principal do Google Deepmind, também observou em um post sobre X que alguns dos números do estudo eram imprecisos, alegando que o Google enviou apenas um modelo Gemma 3 AI para a LM Arena para testes de pré-lançamento. Hooker respondeu a Joulin em X, prometendo que os autores fariam uma correção.
Supostamente favorecidos laboratórios
Os autores do artigo começaram a conduzir suas pesquisas em novembro de 2024, depois de saber que algumas empresas de IA estavam recebendo acesso preferencial à Chatbot Arena. Os autores afirmam que encontraram provas da LM Arena, dando a certas empresas de IA (Meta, Openai e Google) uma vantagem injusta, permitindo que elas apareçam em mais batalhas modelo. Esse aumento da taxa de amostragem, segundo os autores, deu a essas empresas uma vantagem injusta. No entanto, a LM Arena disse em um post no X que o desempenho difícil de arena não se correlaciona diretamente com o desempenho do Chatbot Arena.
Hooker disse que não está claro como certas empresas de IA podem ter recebido acesso prioritário, mas que é incumbente na LM Arena aumentar sua transparência, independentemente.
Em um post em X, a LM Arena disse que várias das reivindicações no artigo não refletem a realidade. Em um post em X, a LM Arena disse que várias das reivindicações no artigo não refletem a realidade.
Uma limitação importante do estudo é que ele se baseou na “auto-identificação” para determinar quais modelos de IA estavam em testes privados na arena do chatbot. Os autores perguntaram aos modelos de IA sobre a empresa de que eram e os classificaram com base em suas respostas. Este método não é infalível.
No entanto, Hooker disse que, quando os autores procuraram a LM Arena para compartilhar suas descobertas preliminares, a organização não as contestou.
O TechCrunch alcançou a Meta, Google, Openai e Amazon – todos mencionados no estudo – para comentar. LM Arena está com problemas
Os autores do estudo exigem a implementação da LM Arena de uma série de mudanças para tornar o Chatbot Arena “Fair”. Por exemplo, eles sugerem que a LM Arena estabelece um limite de quantos laboratórios de testes de IA privados podem conduzir e, em seguida, divulgar publicamente os resultados desses testes. A organização de benchmarking também disse que “não faz sentido mostrar pontuações para modelos de pré-lançamento que não estão disponíveis ao público”, porque a comunidade de IA não pode testar os modelos para si mesmos.
Os pesquisadores também dizem que a LM Arena pode ajustar a taxa de amostragem da Chatbot Arena para garantir que todos os modelos na arena apareçam no mesmo número de batalhas. A LM Arena foi receptiva a esta recomendação publicamente e indicou que criará um novo algoritmo de amostragem.
O jornal ocorre semanas depois que a Meta foi pega os benchmarks de jogos na Chatbot Arena em torno do lançamento de seus modelos Llama 4 acima mencionados. A Meta melhorou um de seus modelos LLAMA4 para ser mais “conversacional”, o que permitiu obter um ranking impressionante na Chatbot Arena. Mas a empresa nunca lançou o modelo otimizado – e a versão de baunilha acabou tendo um desempenho muito pior na chatbot arena.
Na época, a LM Arena disse que a Meta deveria ter sido mais transparente em sua abordagem ao benchmarking.
No início deste mês, a LM Arena anunciou que estava lançando uma empresa, com planos de arrecadar capital dos investidores. Este estudo levanta questões sobre organizações privadas de referência e sua capacidade de avaliar os modelos de IA livre de interferência corporativa.
Fuente