O modelo LLA da Meta se lembrou de Harry Potter e a pedra do feiticeiro que pode reproduzir fragmentos literais de 42 % do livro, de acordo com um novo estudo.
Pesquisadores da Universidade de Stanford, Cornell e West Virginia analisaram dezenas de livros do agora notório conjunto de dados Books3, uma coleção de livros ilegais usados para treinar os modelos de llama da Meta. Os Books3 também são centrais para uma violação de direitos autorais contra a Meta, Kadrey v. Meta Plataforms, Inc. Os autores do estudo dizem que suas descobertas podem ter implicações importantes para as empresas de IA que têm a ver com ações semelhantes.
De acordo com o artigo de pesquisa, o modelo Llama 3.1 “alguns livros, como Harry Potter e 1984, quase completamente”. Em particular, o estudo mostrou que a LLAMA 3,1 42 % do primeiro livro de Harry Potter lembrou -se tão bem que pode literalmente reproduzir extratos pelo menos 50 % do tempo. Em geral, o LLAMA 3.1 poderia reproduzir fragmentos de 91 % do livro, embora não tão consistente.
“O grau de memorização literal de livros do conjunto de dados do Books3 é mais importante do que o descrito anteriormente”, diz De Paper. Mas os pesquisadores também descobriram que “a memorização varia muito de modelo para modelo e de livro para livro dentro de cada modelo, além de variando em diferentes partes de livros individuais”. Por exemplo, o estudo estimou que o LLAMA 3.1 havia se lembrado de apenas 0,13 % de Sandman Slim por Richard Kadrey, um dos protagonistas da classe de direitos autorais de ação contra a meta.
Assim, embora algumas descobertas do artigo pareçam malditas, não a chame de uma arma de fumantes para os demandantes em violação da IA de direitos autorais.
Velocidade de luz mashable
“Esses resultados dão a todos no debate de direitos autorais da IA algo a se conectar”, escreveu o jornalista Timothy B. Lee em seu conceito de boletim informativo da IA. “Resultados divergentes como esses podem fazer dúvidas sobre se é lógico preencher JK Rowling, Richard Kadrey e milhares de outros autores juntos em uma ação judicial de uma massa. E isso poderia trabalhar a favor da meta, porque a maioria dos autores não tem os meios para atender a ações judiciais individuais”.
Por que o Lama é capaz de reproduzir alguns livros mais do que outros? “Suspeito que seja uma diferença porque Harry Potter é um livro muito mais famoso. É geralmente citado e tenho certeza de que trechos substanciais encontraram seu caminho nos dados de treinamento na Web em sites de terceiros”, disse James Grimmelmann, professor da lei digital e de informação da Universidade Cornell, que estava no artigo.
O que isso também mostra, Grimmelmann disse, é que “as empresas de IA podem fazer escolhas que aumentam ou reduzem a memorização. Não é uma característica inevitável da IA; elas têm controle sobre ela”.
A Meta e outras empresas de IA argumentaram que o uso de obras protegidas por direitos autorais para treinar seus modelos é protegido sob uso razoável, uma doutrina legal complexa. No entanto, o grau de memorização pode tornar esses argumentos mais difíceis.
“Sim, acho que a chance de o LLMS se lembrar mais do que antes, a análise de direitos autorais mudará”, disse Robert Brauneis, professor da Faculdade de Direito da Universidade de George Washington, em um e -mail para Mashable. Ele concluiu que as descobertas do estudo poderiam eventualmente enfraquecer o argumento do uso justo de Meta.
Pedimos à Meta para comentar as descobertas do estudo e atualizaremos este artigo se recebermos uma resposta.
Publicação: Ziff Davis, empresa controladora da Mashable, contratou o Openai em abril, alegando que violava os direitos autênticos de Ziff Davis em treinamento e operação de seus sistemas de IA.
Subjugar
Meta de inteligência artificial