Há duas semanas, a OpenAI anunciou que iria relançar o programa de robótica que encerrou em 2021 – o mais recente sinal de que os maiores laboratórios de IA estão a competir para ensinar as máquinas a operar no mundo físico. Mas construir robôs capazes requer algo que a indústria de IA ainda não tem, que são os dados de treinamento correspondentes aos usados para modelos de linguagem.
Essa lacuna está a criar um novo tipo de negócio de infra-estruturas. Ao contrário dos LLMs que foram treinados em um vasto mar de textos disponíveis publicamente, os robôs precisam de dados que capturem a interação física, e esse tipo de dados quase não existe. Os vídeos e filmagens do YouTube capturados por trabalhadores de shows são de baixa fidelidade e difíceis de conciliar com o mundo físico.
O XDOF (pronuncia-se “ecks-doff”), emergindo hoje do stealth, aposta que o próximo grande gargalo na IA não são os modelos ou chips, mas o ciclo de feedback de dados necessário para ensinar os robôs a interagir com o mundo físico.
A startup tem como objetivo construir pipelines de dados, ferramentas de coleta e sistemas de anotação que laboratórios de fronteira e empresas de robótica não conseguem construir facilmente – e arrecadou US$ 70 milhões da Thrive Capital, Spark Capital, a16z, Lux e WndrCo para fazer isso. O cofundador e CEO Philippe Wu diz que a XDOF, que tem cerca de 60 funcionários, já está trabalhando com 20 clientes, incluindo vários laboratórios de IA de ponta, mas não pode nomeá-los.
“Todos os principais laboratórios estão tentando buscar a robótica”, disse Wu. “Já vimos algumas das desvantagens de ficar um pouco para trás na corrida do modelo de linguagem… você não quer estar neste tipo de situação em que busca essa tecnologia tarde demais, e todos estão neste barco onde a IA física é a próxima fronteira.”
Wu se deparou com esse problema quando era estudante de doutorado na UC Berkeley. Seu foco era permitir que robôs aprendessem habilidades a partir de conjuntos de dados em grande escala. Houve apenas um problema.
“Não tínhamos dados em grande escala para trabalhar”, disse ele ao TechCrunch. “Havia esse problema do ovo e da galinha – primeiro precisávamos realmente coletar dados antes mesmo de podermos perguntar como treinar um modelo básico para robótica.”
Wu e seu futuro cofundador e CTO da XDOF, Fred Shentu, trabalharam em um projeto chamado GELLO, um sistema de teleoperação de baixo custo que permite que um operador humano controle um braço robótico para gerar dados de treinamento. “Acabou se tornando um artigo muito influente na robótica, porque muitas pessoas tinham necessidades e gargalos semelhantes, e muitas começaram a aproveitar esse tipo de dispositivo para coleta de dados”, disse Wu.
Percebendo a oportunidade, Wu, Shentu e o terceiro cofundador e diretor de operações Nemo Jin lançaram o XDOF em outubro de 2024 para fornecer um ecossistema de dados para empresas que buscam modelos robóticos. Ciente de que o fornecimento de dados por si só pode ser um negócio sem saída, a empresa também está focada na limpeza, ferramentas e anotação de dados – criando um ciclo de feedback que se auto-reforça para treinadores de robôs.
Como ponto de partida, a empresa está fazendo parceria com o laboratório de pesquisa de IA da UC Berkeley para lançar o que acredita ser a maior coleção de dados de treinamento de robôs de alta qualidade já reunida, chamada ABC. Inclui 130.000 trajetórias de dados de manipulação de robôs, 300 horas de simulação e 100 horas de avaliações. Esse tipo de dados pré-treinamento ampliados nunca esteve disponível para a academia antes.
“Vimos em linguagem, geração de imagens e outros campos que, quando modelos e dados são divulgados, a comunidade alcança coisas que você não necessariamente esperaria”, disse David McAllister, estudante de doutorado em Berkeley que ajudou a organizar o lançamento, ao TechCrunch.
A equipe já usou os dados para treinar robôs em tarefas de referência, como dobrar camisetas e achatar caixas ou carregar AirPods em seus estojos.
Graus de liberdade ilimitados
A empresa planeja trabalhar em três níveis de uma pirâmide de dados. O nível mais valioso são os dados de teleoperação coletados no robô real que está sendo implantado; em seguida vêm os robôs teleoperados que coletam dados mais gerais, como acontece com o GELLO; e, finalmente, dados “egocêntricos” recolhidos por humanos que realizam tarefas quotidianas, para os quais a XDOF planeia construir os seus próprios sensores vestíveis.
“A escolha da sua câmera afetará a qualidade dos seus dados – o que afetará o desempenho do seu algoritmo de rastreamento manual”, disse Wu. “Se você não projetar bem o hardware desde o início, os dados coletados poderão ter problemas muito específicos que você não previu.”
A empresa planeia contratar e treinar exércitos de teleoperadores e operadores de dados egocêntricos em todo o mundo – um modelo de mão-de-obra intensiva que levanta uma questão óbvia: porque é que os grandes laboratórios não estão a fazer eles próprios este trabalho de produção de dados?
“Você precisa de um armazém de centenas de milhares de metros quadrados com centenas de robôs”, disse Wu. “Você precisa manter esses robôs, calibrar seus parâmetros físicos e treinar adequadamente os operadores.”
É uma construção que requer foco, capital e escala operacional que a maioria dos laboratórios de IA preferiria terceirizar – que é precisamente o mercado em que a XDOF está apostando.
O nome XDOF é uma brincadeira com o termo robótico “graus de liberdade”, que descreve o número de movimentos independentes que um robô pode realizar. Seu braço, do ombro ao pulso, tem sete graus de liberdade. O robô mais recente da empresa de robótica humanóide Figure.AI tem 30. O X no nome da empresa captura sua ambição: “Graus de liberdade arbitrários, graus de liberdade ilimitados”, diz Wu.
Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.