Início Tecnologia Por que as startups de IA estão controlando as informações com as...

Por que as startups de IA estão controlando as informações com as próprias mãos

17
0
Digital generated image of abstract cloud / data visualization on purple background.

Durante uma semana neste verão, Taylor e sua colega de quarto usaram câmeras eletrônicas GoPro amarradas em suas têmporas enquanto repintavam, formavam e faziam tarefas familiares. Eles estavam desenvolvendo uma versão de visão de IA, sincronizando cuidadosamente suas imagens de vídeo para que o sistema pudesse obter vários ângulos sobre os mesmos hábitos. Foi difícil trabalhar de várias maneiras, mas eles foram bem gastos nisso – e isso permitiu que Taylor passasse a maior parte de seu dia fazendo arte.

“Levantamos, fizemos nossa rotina normal e depois amarramos as câmeras eletrônicas na cabeça e sincronizamos os momentos”, ela me informou. “Depois disso certamente faríamos nossa refeição matinal e arrumaríamos as receitas. Depois certamente seguiríamos nossos métodos diferentes e trabalharíamos com arte.”

Eles foram contratados para criar 5 horas de vídeos sincronizados todos os dias, mas Taylor descobriu imediatamente que precisava alocar 7 horas por dia para o trabalho, para deixar tempo suficiente para pausas e recuperação física.

“Isso certamente lhe traria frustrações”, afirmou ela. “Você tira e há simplesmente um quadrado vermelho na sua têmpora.”

Taylor, que pediu para não revelar seu sobrenome, trabalhava como consultora de dados para Turing Labs, uma empresa de IA que a vinculava ao TechCrunch. O objetivo de Turing não era instruir a IA exatamente como fazer tintas a óleo, mas sim obter habilidades ainda mais abstratas em torno do pensamento analítico e estético consecutivo. Ao contrário de uma versão em grande linguagem, a versão da visão de Turing seria formada inteiramente em vídeo – e a maior parte seria acumulada diretamente por Turing.

Ao lado de músicos como Taylor, Turing está se relacionando com cozinheiros, funcionários de construção civil e empreiteiros elétricos – qualquer pessoa que lide com as mãos. O principal policial da AGI de Turing, Sudarshan Sivaraman, disse ao TechCrunch que a coleta prática é a única maneira de obter um conjunto de dados diferente e suficiente.

“Estamos fazendo isso para vários tipos de trabalhos manuais, para garantir que tenhamos uma variedade de dados na fase de pré-treinamento”, disse Sivaraman ao TechCrunch. “Depois de obtermos todas essas informações, as versões certamente serão capazes de compreender exatamente como um trabalho específico é executado.”

Evento Techcrunch

São Francisco
|
27 a 29 de outubro de 2025

O trabalho de Turing com versões de visão torna-se parte de uma mudança crescente na forma como as empresas de IA lidam com as informações. Onde as coleções de treinamento eram facilmente extraídas da Internet ou acumuladas por anotadores mal pagos, as empresas estão atualmente pagando muito dinheiro por informações cuidadosamente selecionadas.

Com o poder bruto da IA ​​atualmente desenvolvida, as empresas procuram informações de formação exclusivas como um benefício acessível. E em vez de subcontratar o trabalho a prestadores de serviços, eles geralmente cuidam do trabalho sozinhos.

A empresa de e-mail Fyxer, que utiliza versões de IA para organizar e-mails e rascunhos de respostas, é um exemplo.

Depois de alguns experimentos iniciais, o proprietário Richard Hollingsworth descobriu que o método mais eficaz era utilizar uma variedade de versões minúsculas com informações de treinamento bem concentradas. Ao contrário de Turing, Fyxer está desenvolvendo a versão da estrutura de outra pessoa – mas o entendimento subjacente coincide.

“Reconhecemos que a qualidade dos dados, e não a quantidade, é o que realmente define o desempenho”, disse-me Hollingsworth.

Em termos úteis, isso indicava algumas seleções exclusivas de funcionários. Nos primeiros dias, os designers e supervisores do Fyxer eram frequentemente superados em quatro para um pelos assessores executivos necessários para educar a versão, afirma Hollingsworth.

“Contamos com muitos assessores executivos experientes, porque precisávamos ensinar se um e-mail deveria ser respondido”, disse ele ao TechCrunch. “É um problema extremamente voltado para as pessoas. Encontrar pessoas maravilhosas é muito difícil.”

A velocidade de coleta de informações nunca diminuiu, mas com o tempo Hollingsworth se tornou muito mais valioso no que diz respeito às coletas de informações, gostando de coleções menores de conjuntos de dados com curadoria ainda mais confortável quando chegou a hora do pós-treinamento. Como ele afirma, “a qualidade da informação, e não a quantidade, é o que realmente define o desempenho”.

Isso é especialmente real quando se utiliza informação artificial, multiplicando tanto a extensão das situações de treinamento viáveis ​​quanto a influência de qualquer tipo de imperfeição no conjunto de dados inicial. Do lado da visão, Turing Price cita que 75 a 80 por cento de suas informações são artificiais, teorizado a partir dos videoclipes iniciais da GoPro. No entanto, isso torna muito mais essencial manter o conjunto de dados inicial com a maior qualidade possível.

“Se os dados pré-treinamento em si não forem de boa qualidade, então tudo o que você fizer com dados artificiais provavelmente também não será de boa qualidade”, afirma Sivaraman.

Além das questões de alta qualidade, há um raciocínio eficaz e acessível por trás da manutenção da coleta de informações internamente. Para a Fyxer, o esforço de coleta de informações é apenas um dos fossos mais eficazes que a empresa tem em relação aos concorrentes. Na opinião de Hollingsworth, qualquer pessoa pode desenvolver uma versão de código aberto em seu produto – mas nem todos conseguem encontrar anotadores experientes para transformá-lo em um produto prático.

“Nossa equipe acredita que o método mais eficaz para fazer isso é com informação”, informou ao TechCrunch, “com versões estruturadas personalizadas, com excelente qualidade, treinamento de informação conduzido por humanos”.

.

Fuente