Início Tecnologia Milhares de pessoas estão vendendo suas identidades para treinar IA – mas...

Milhares de pessoas estão vendendo suas identidades para treinar IA – mas a que custo?

18
0
Milhares de pessoas estão vendendo suas identidades para treinar IA – mas a que custo?

SOBREN a manhã do ano passado, Jacobus Louw iniciou sua caminhada diária pela vizinhança para alimentar as gaivotas que encontra pelo caminho. Só que desta vez ele gravou vários vídeos de seus pés e da vista enquanto caminhava na calçada. O vídeo lhe rendeu US$ 14, cerca de 10 vezes o salário mínimo do país, ou para Louw, um jovem de 27 anos que mora na Cidade do Cabo, na África do Sul, meia semana em mantimentos.

O jornalismo do Guardian é independente. Ganharemos uma comissão se você comprar algo através de um link de afiliado. Saber mais.

O vídeo era para uma tarefa de “Navegação Urbana” que Louw encontrou no Kled AI, um aplicativo que paga colaboradores para enviarem seus dados, como vídeos e fotos, para treinar modelos de inteligência artificial. Em algumas semanas, Louw ganhou US$ 50 postando fotos e vídeos de sua vida cotidiana.

A milhares de quilômetros de distância, em Ranchi, na Índia, Sahil Tigga, um estudante de 22 anos, ganha regularmente dinheiro permitindo que Silencio, que coleta dados de áudio para treinamento de IA, acesse o microfone de seu telefone para capturar o ruído ambiente da cidade, como dentro de um restaurante ou tráfego em um cruzamento movimentado. Ele também envia gravações de sua voz. Sahil viaja para capturar cenários únicos, como lobbies de hotéis ainda não documentados no mapa de Silencio. Ele ganha mais de US$ 100 por mês fazendo isso, o suficiente para cobrir todas as suas despesas com alimentação.

E em Chicago, Ramelio Hill, um aprendiz de soldagem de 18 anos, ganhou algumas centenas de dólares vendendo suas conversas telefônicas privadas com amigos e familiares para a Neon Mobile, uma plataforma de treinamento de IA conversacional que paga US$ 0,50 por minuto. Para Hill, o cálculo era simples: ele imaginou que as empresas de tecnologia já capturam uma grande parte de seus dados privados, então ele poderia muito bem receber uma parte do lucro.

Esses treinadores de IA – que carregam tudo, desde cenas ao seu redor até fotos, vídeos e áudio de si mesmos – estão na linha de frente de uma nova corrida global pelo ouro dos dados. À medida que a fome do Vale do Silício por dados de alta qualidade e de nível humano ultrapassa o que pode ser extraído da Internet aberta, uma próspera indústria de mercados de dados surgiu para preencher a lacuna. Da Cidade do Cabo a Chicago, milhares de pessoas estão agora a microlicenciar as suas identidades biométricas e dados íntimos para treinar a próxima geração de IA.

Mas esta nova economia gigantesca traz compensações. Em troca de alguns dólares, os seus formadores estão a alimentar uma indústria que pode eventualmente tornar as suas competências obsoletas, ao mesmo tempo que deixa alguns deles vulneráveis ​​a um futuro de deepfakes, roubo de identidade e exploração digital que apenas estão a começar a compreender.

Mantendo a roda da IA ​​girando

Os modelos de linguagem da IA, como ChatGPT e Gemini, exigem uma grande quantidade de material de aprendizagem para serem melhorados, mas enfrentam uma escassez de dados. As fontes de formação mais utilizadas, como C4, RefinedWeb e Dolma, que representam um quarto dos conjuntos de dados da mais alta qualidade na web, estão agora a restringir as empresas de IA generativa de treinar modelos com os seus dados. Os investigadores estimam que as empresas de IA ficarão sem textos novos de alta qualidade para treinar já em 2026. Embora alguns laboratórios tenham recorrido à retroalimentação dos dados sintéticos que a sua IA gera, um processo tão recursivo pode levar os modelos a produzir resíduos cheios de erros que provocam o seu colapso.

Os treinadores Gig AI, que carregam tudo, desde cenas ao seu redor até fotos, vídeos e áudio de si mesmos, estão na linha de frente de uma nova corrida global pelo ouro de dados. Fotografia: Arun Sankar/AFP via Getty Images

É aqui que entram aplicativos como Kled AI e Silencio. Nesses tipos de mercados de dados, milhões de pessoas estão monetizando suas identidades para alimentar e treinar IA. Além de Kled AI, Silencio e Neon Mobile, há muitas opções para treinadores de IA: Luel AI, apoiada pela famosa incubadora de startups Y-Combinator, fornece conversas multilíngues por cerca de US$ 0,15 por minuto. ElevenLabs permite clonar digitalmente sua voz e permitir que qualquer pessoa a use por uma taxa básica de US$ 0,02 por minuto.

O treinamento Gig AI é uma nova categoria emergente de trabalho e crescerá substancialmente, disse Bouke Klein Teeselink, professor de economia do King’s College London.

As empresas de IA sabem que pagar às pessoas para licenciar os seus dados ajuda a evitar o risco de disputas de direitos de autor que poderiam enfrentar se confiassem inteiramente em conteúdo extraído da web, disse Tesselink. Estas empresas também precisam de dados de alta qualidade para modelar comportamentos novos e melhorados nos seus sistemas, disse Veniamin Veselovsky, investigador de IA. “Os dados humanos, por enquanto, são o padrão ouro para amostragem fora da distribuição do modelo”, acrescentou Veselovsky.

Os seres humanos que alimentam as máquinas, especialmente os dos países em desenvolvimento, muitas vezes precisam do dinheiro e têm poucas outras opções para ganhá-lo. Para muitos formadores de IA, fazer este trabalho é uma resposta pragmática à disparidade económica. Em países com elevado desemprego e moedas desvalorizadas, ganhar a moeda dos EUA é muitas vezes mais estável e gratificante do que empregos locais. Algumas de suas lutas para garantir empregos iniciais e para fazer treinamento em IA quando necessário. Mesmo nas nações mais ricas, o aumento do custo de vida transformou a venda de si próprio num pivô financeiro lógico.

No entanto, as armadilhas do treinamento gig AI podem ser invisíveis. Em alguns mercados de IA, os treinadores de dados concedem licenças irrevogáveis ​​e isentas de royalties que permitem às empresas criar “trabalhos derivados”, o que significa que uma gravação de voz de 20 minutos hoje poderia alimentar um bot de atendimento ao cliente de IA nos próximos anos, sem que o treinador nunca mais veja outro centavo. Além disso, devido à falta de transparência nestes mercados, o rosto de um utilizador pode acabar numa base de dados de reconhecimento facial ou num anúncio predatório a meio mundo de distância, praticamente sem recurso legal.

aspas duplasDados humanos, por enquanto, são o padrão-ouro para amostrar fora da distribuição do modeloVeniamin Veselovsky

Louw, o treinador de IA na Cidade do Cabo, está ciente das compensações em matéria de privacidade. E embora o rendimento seja irregular e insuficiente para cobrir todas as suas despesas mensais, ele está disposto a aceitar estas condições para ganhar dinheiro. Ele lutou contra um distúrbio nervoso durante anos e não conseguiu um emprego, mas o dinheiro ganho em mercados de IA, incluindo Kled AI, permitiu-lhe economizar para um curso de treinamento em spa de US$ 500 para se tornar um massagista.

“Como sul-africano, ser pago em dólares vale mais a pena do que as pessoas pensam”, disse Louw.

Mark Graham, professor de geografia da Internet na Universidade de Oxford e autor de Feeding the Machine, reconheceu que para os indivíduos nos países em desenvolvimento, o dinheiro pode ser significativo a curto prazo, mas alertou que “estruturalmente este trabalho é precário, não progressivo e efectivamente um beco sem saída”.

Os mercados de IA dependem de uma “corrida para o nível mais baixo dos salários”, acrescentou Graham, e de uma “demanda temporária por dados humanos”. Quando esta procura muda, “os trabalhadores ficam sem proteções, sem competências transferíveis e sem rede de segurança”.

O único vencedor que emerge, disse Graham, são “as plataformas no norte global (que) capturam todo o valor duradouro”.

Cidade do Cabo, África do Sul. Fotografia: Peter Titmuss/Universal Images Group/Getty Images

Permissões de carta branca

Hill, o treinador de IA baseado em Chicago, tinha sentimentos conflitantes sobre a venda de suas ligações privadas para a Neon Mobile. Por cerca de 11 horas de ligações, ele ganhou US$ 200, mas disse que o aplicativo frequentemente ficava off-line e não liberava pagamentos atrasados. “O néon sempre foi obscuro para mim, mas continuei usando-o para conseguir algum dinheiro extra e fácil para contas e outras despesas diversas”, disse Hill.

Agora ele está reconsiderando como esse dinheiro era fácil. Em setembro, poucas semanas após seu lançamento, o Neon Mobile ficou offline depois que o TechCrunch descobriu uma falha de segurança que permitia a qualquer pessoa acessar números de telefone, gravações de chamadas e transcrições de usuários. Hill disse que a Neon Mobile nunca o informou sobre isso e agora ele está preocupado com a possibilidade de sua voz ser mal utilizada na internet.

O que Jennifer King, investigadora de privacidade de dados do Stanford Institute for Human-Centered Artificial Intelligence, considera preocupante é que os mercados de IA não são claros sobre como e onde os dados dos utilizadores serão implementados. Sem negociar ou conhecer os seus direitos, acrescentou ela, “os consumidores correm o risco de os seus dados serem reaproveitados de formas que não gostam ou que não compreenderam ou anteciparam, e, nesse caso, terão poucos recursos”.

Quando os treinadores de IA compartilham seus dados no Neon Mobile e Kled AI, eles estão concedendo uma licença carta branca (mundial, exclusiva, irrevogável, transferível e livre de royalties) para vender, usar, exibir publicamente e armazenar suas imagens – e até mesmo criar trabalhos derivados delas.

O fundador da Kled AI, Avi Patel, disse que os acordos de dados de sua empresa limitam o uso para fins de treinamento e pesquisa de IA. “Todo o negócio depende da confiança do usuário. Se os colaboradores acreditarem que seus dados podem ser usados ​​indevidamente, a plataforma para de funcionar.” Ele disse que sua empresa examina empresas antes de vender conjuntos de dados, para evitar trabalhar com pessoas com “intenções questionáveis”, como pornografia, e “órgãos governamentais” que eles acreditam que poderiam usar os dados de maneiras que conflitam com essa confiança.

aspas duplasComo sul-africano, ser pago em dólares vale mais a pena do que as pessoas pensamJacobus Louw

Neon Mobile não respondeu a um pedido de comentário.

De acordo com Enrico Bonadio, professor de direito na City St George’s, Universidade de Londres, os termos destes acordos permitem que as plataformas, bem como os seus clientes, façam “quase qualquer coisa com esse material, para sempre, sem qualquer pagamento adicional e sem qualquer forma realista de o contribuidor retirar o consentimento ou renegociar significativamente”.

Riscos mais preocupantes incluem o uso de dados de treinadores para deepfakes e falsificação de identidade. Embora os mercados de dados aleguem retirar dos dados qualquer identificação, como nome e localização, antes de os venderem, os padrões biométricos são, por natureza, difíceis de anonimizar num sentido robusto, acrescentou Bonadio.

Arrependimento do vendedor

Mesmo quando os treinadores de IA conseguem negociar proteções mais diferenciadas sobre como seus dados serão usados, eles ainda podem sentir arrependimento. Quando Adam Coy, um ator de Nova York, vendeu sua imagem em 2024 por US$ 1.000 para Captions, um editor de vídeo com tecnologia de IA que agora se chama Mirage, seu acordo garantiu que sua identidade não seria usada para nenhum meio político ou para venda de álcool, tabaco ou pornografia, e que a licença expiraria em um ano.

As legendas não responderam a um pedido de comentário.

Não muito tempo depois, os amigos de Adam começaram a encaminhar-lhe vídeos que encontraram online com seu rosto e voz, obtendo milhões de visualizações. Em um desses vídeos, um carretel do Instagram, a réplica da IA ​​de Adam afirma ser um “médico de vagina” e promove suplementos médicos não comprovados para mulheres grávidas e pós-parto.

“Foi constrangedor explicar isso às pessoas”, disse Coy.

“Os comentários são estranhos de ler porque comentam sobre minha aparência física, mas não sou realmente eu”, acrescentou Coy. “Minha sensação (ao decidir vender minha imagem) era que a maioria das modelos estaria vasculhando a Internet em busca de dados e imagens (de qualquer maneira), então poderia muito bem ser paga por isso.”

Coy disse que não se inscreveu em nenhum trabalho de dados de IA desde então. Ele só consideraria isso, disse ele, se uma empresa oferecesse uma compensação maior.

Fuente