Se você já se perguntou como empresas de IA como Google, Anthropic, OpenAI e Meta obtêm seus dados de treinamento de editores com acesso pago, como o New York Times, Wired ou Washington Post, podemos finalmente ter uma resposta.
Numa investigação detalhada para o The Atlantic, o repórter Alex Reisner revela que várias grandes empresas de IA fizeram uma parceria discreta com a Common Crawl Foundation – uma organização sem fins lucrativos que vasculha a web para construir um enorme arquivo público da internet para fins de investigação. De acordo com o relatório, o Common Crawl, cujo banco de dados abrange vários petabytes, abriu efetivamente um backdoor que permite às empresas de IA treinar seus modelos em conteúdo com acesso pago dos principais meios de comunicação. Em uma postagem de blog publicada hoje, o Common Crawl nega veementemente as acusações.
O site da fundação afirma que seus dados são coletados de páginas disponíveis gratuitamente. Mas o seu diretor executivo, Richard Skrenta, disse ao The Atlantic que acredita que os modelos de IA deveriam ser capazes de aceder a tudo na Internet. “Os robôs também são pessoas”, disse Skrenta ao The Atlantic.
VEJA TAMBÉM:
Califórnia dá sinal verde para segurança de IA, proteção de dados e silêncio da Netflix
Chatbots de IA como ChatGPT e Google Gemini provocaram uma crise na indústria do jornalismo. Os chatbots de IA coletam informações dos editores e as compartilham diretamente com os leitores, afastando cliques e visitantes desses editores. Este fenômeno foi chamado de apocalipse do trânsito e armageddon da IA. (Divulgação: Ziff Davis, empresa controladora da Mashable, entrou com uma ação judicial contra a OpenAI em abril, alegando que ela infringiu os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)
Conforme afirmado no relatório da Atlantic, alguns editores de notícias tomaram conhecimento das atividades do Common Crawl e alguns bloquearam o scraper da fundação adicionando uma instrução ao código do seu site. No entanto, isso protege apenas o conteúdo futuro, e não qualquer coisa que já tenha sido excluída.
Velocidade da luz mashável
Vários editores solicitaram que o Common Crawl removesse seu conteúdo de seus arquivos. A fundação afirmou que está cumprindo, embora lentamente, devido ao grande volume de dados, com uma organização compartilhando vários e-mails do Common Crawl com o The Atlantic que o processo de remoção foi “50 por cento, 70 por cento e depois 80 por cento completo”. No entanto, Reisner descobriu que nenhum desses pedidos de remoção parece ter sido atendido – e que os arquivos do Common Crawl não foram modificados desde 2016.
Skrenta disse ao The Atlantic que o formato de arquivo usado para armazenar os arquivos “foi concebido para ser imutável”, o que significa que o conteúdo não pode ser excluído depois de adicionado. No entanto, Reisner relata que a ferramenta de pesquisa pública do site, a única forma não técnica de navegar nos arquivos do Common Crawl, retorna resultados enganosos para determinados domínios – mascarando o escopo do que foi copiado e armazenado.
Mashable entrou em contato com o Common Crawl e um membro da equipe nos indicou uma postagem pública no blog do Skrenta. Nele, Skrenta negou as alegações de que a organização enganou os editores, afirmando que seu rastreador da web não contorna os acessos pagos. Ele também enfatizou que o Common Crawl é financeiramente independente e “não faz o trabalho sujo da IA”.
“O Atlantic faz várias afirmações falsas e enganosas sobre a Common Crawl Foundation, incluindo a acusação de que a nossa organização ‘mentiu aos editores’ sobre as nossas atividades”, diz o post do blog. Afirma ainda: “Nosso rastreador da web, conhecido como CCBot, coleta dados de páginas da web acessíveis publicamente. Não vamos ‘atrás de acessos pagos’, não fazemos login em nenhum site e não empregamos nenhum método projetado para evitar restrições de acesso.”
No entanto, como relata Reisner, o Common Crawl já recebeu doações da OpenAI, Anthropic e outras empresas focadas em IA. Ele também lista a NVIDIA como “colaboradora” em seu site. Além de coletar texto bruto, escreve Reisner, a fundação também ajuda a montar e distribuir conjuntos de dados de treinamento de IA – até mesmo hospedando-os para uso mais amplo.
Seja qual for o caso, a luta sobre como a indústria da IA utiliza material protegido por direitos autorais está longe de terminar. A OpenAI, por exemplo, continua no centro de vários processos judiciais de grandes editoras, incluindo o New York Times e a empresa controladora do Mashable, Ziff Davis.
Tópicos
Inteligência artificial


