O ArXiv, um repositório aberto amplamente utilizado para pesquisas de pré-impressão, está fazendo mais para reprimir o uso descuidado de grandes modelos de linguagem em artigos científicos.
Embora os artigos sejam publicados no site antes de serem revisados por pares, o arXiv (pronuncia-se “arquivo”) tornou-se uma das principais formas de circulação da pesquisa em áreas como ciência da computação e matemática, e o próprio site tornou-se uma fonte de dados sobre tendências na pesquisa científica.
O ArXiv já tomou medidas para combater um número crescente de artigos de baixa qualidade gerados por IA, por exemplo, exigindo que os autores que publicam pela primeira vez obtenham o endosso de um autor estabelecido. E depois de ser hospedada por Cornell por mais de 20 anos, a organização está se tornando uma organização sem fins lucrativos independente, o que deve permitir que ela arrecade mais dinheiro para resolver questões como o desperdício de IA.
Em seu último movimento, Thomas Dietterich – presidente da seção de ciência da computação do arXiv – postou na quinta-feira que “se uma submissão contém evidências incontestáveis de que os autores não verificaram os resultados da geração do LLM, isso significa que não podemos confiar em nada no artigo”.
Essas evidências controversas podem incluir coisas como “referências alucinadas” e comentários de ou para o LLM, disse Dietterich. Se tal evidência for encontrada, os autores de um artigo enfrentarão “uma proibição de 1 ano do arXiv seguida pela exigência de que as submissões subsequentes do arXiv devem primeiro ser aceitas por um local respeitável e revisado por pares”.
Observe que esta não é uma proibição total do uso de LLMs, mas sim uma insistência para que, como disse Dietterich, os autores assumam “total responsabilidade” pelo conteúdo, “independentemente de como o conteúdo é gerado”. Portanto, se os pesquisadores copiarem e colarem “linguagem inadequada, conteúdo plagiado, conteúdo tendencioso, erros, equívocos, referências incorretas ou conteúdo enganoso” diretamente de um LLM, eles ainda serão responsáveis por isso.
Dietterich disse à 404 Media que esta será uma regra de “ataque único”, mas os moderadores devem sinalizar o problema e os presidentes de seção devem confirmar as evidências antes de impor a penalidade. Os autores também poderão recorrer da decisão.
Uma pesquisa recente revisada por pares descobriu que as citações fabricadas estão aumentando na pesquisa biomédica, provavelmente devido aos LLMs – embora, para ser justo, os cientistas não sejam os únicos a serem pegos usando citações feitas pela IA.
Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.



