Um juiz federal decidiu que a OpenAI precisa entregar todas as suas comunicações internas com advogados sobre o motivo pelo qual excluiu dois enormes tesouros de livros piratas de uma notória “biblioteca sombra” que a empresa de tecnologia é acusada de usar para treinar o ChatGPT.
A juíza do Tribunal Federal de Manhattan, Ona Wang, decidiu na segunda-feira que as razões mutáveis da gigante da tecnologia para excluir os dados destruíram qualquer argumento de que essas razões poderiam ser protegidas pelo privilégio advogado-cliente.
“A OpenAI continua a afirmar que não violou intencionalmente os trabalhos protegidos por direitos autorais dos reclamantes da classe. Um júri tem o direito de conhecer a base para a suposta boa fé da OpenAI”, escreveu Wang em sua decisão de 28 páginas. “O que importa é que a OpenAI colocou seu estado de espírito em questão, e a OpenAI não pode usar seletivamente o privilégio advogado-cliente para restringir a investigação dos demandantes da classe sobre evidências relativas à suposta boa fé da OpenAI desta forma.”
O juiz está supervisionando uma enorme ação coletiva consolidada contra a Microsoft e a OpenAI, que inclui o Daily News, jornais afiliados à Tribune Publishing e ao MediaNews Group e outros meios de comunicação que acusam a gigante da tecnologia de violação de direitos autorais.
A decisão de Wang na segunda-feira gira em torno de um grupo de demandantes que inclui o Authors Guild e uma longa lista de escritores de best-sellers, como o roteirista de “A Guerra dos Tronos”, George RR Martin, e o autor de suspense jurídico John Grisham. Os autores alegam que a OpenAI utilizou livros piratas da infame biblioteca online “LibGen”, que dois tribunais ordenaram o encerramento na última década, para treinar os seus produtos de IA, depois de um funcionário os ter descarregado em 2018.
Durante o processo de descoberta, os demandantes descobriram que a OpenAI excluiu os dois tesouros, chamados “Livros1” e “Livros2”, em 2022 – que se acredita conterem mais de 100.000 livros – um ano antes do início de qualquer litígio.
“Na época, a OpenAI afirmou que os conjuntos de dados foram excluídos devido ao ‘não uso’. Esses são os únicos conjuntos de dados de treinamento que, de acordo com a OpenAI, já foram excluídos”, escreveu Wang. “Então, quando os demandantes da classe buscaram descobrir os motivos da exclusão dos conjuntos de dados Books1 e Books2, a OpenAI afirmou o privilégio advogado-cliente. A posição da OpenAI sobre se os motivos para a exclusão são privilegiados mudou várias vezes.”
Wang está ordenando que a OpenAI forneça aos demandantes as comunicações que ela já revisou, todas as outras comunicações escritas com os advogados internos da empresa sobre os motivos pelos quais os conjuntos de dados foram excluídos e todas as referências internas à LibGen que a OpenAI redigiu ou reteve anteriormente.
As equipes jurídicas do Authors Guild e da OpenAI não retornaram imediatamente mensagens solicitando comentários.
Um porta-voz da OpenAI disse ao Law360: “Discordamos da decisão e pretendemos apelar”.



