Todos nós acessamos o Street View no Google Maps para mostrar a um amigo como era a casa de nossa infância ou colocamos aquele ícone de pessoa pequena nas ruas de Paris para ver se reservamos um hotel em um bairro legal. Imagine poder fazer isso, mas de uma forma mais imersiva e interativa que permite simular realmente a rua e seus ambientes, e até fazer coisas como ajustar o clima ou ver como seria em um cenário “Dia Depois de Amanhã”.
Esse é um dos objetivos da mais recente integração do Google. A partir de hoje, o Google DeepMind está conectando o Street View ao Project Genie, o modelo mundial de uso geral da empresa que pode gerar ambientes diversos e interativos. O novo recurso foi lançado durante a conferência de desenvolvedores Google I/O.
“É realmente poderoso tanto para o caso de uso do agente (e da robótica) quanto para os humanos brincarem, e essa sempre foi a tese do Genie”, disse Jack Parker-Holder, cientista pesquisador da equipe de abertura da DeepMind, ao TechCrunch.
Ele deu o exemplo de um novo robô implantado em Londres, que raramente vê o sol. A Genie poderia, diz Parker-Holder, simular ocasiões raras em que o sol brilha na habitação vitoriana, para que os raios não choquem o robô quando isso acontece.
“Simultaneamente, você pode dizer: ‘Vou para Nova York, mas não nesta época do ano’”, continuou ele. “‘Vai nevar. Quero ver como fica aquele bloco na neve.'”
O Google coleta dados do Street View há 20 anos por meio de carros com câmeras e indivíduos amarrados com “mochilas rastreadoras”. A gigante da tecnologia coletou mais de 280 bilhões de imagens em 110 países e sete continentes.
“Com o Street View, temos imagens de uma grande parte do mundo”, disse Jack. “Você pode imaginar o quão potencialmente poderoso é combinar esta rica fonte de informações e dados do mundo real com a capacidade de simular mundos.”
O Google lançou seu mais recente modelo mundial Genie 3 para visualização de pesquisa em agosto passado e abriu o acesso à ferramenta para assinantes do Google AI Ultra nos EUA em janeiro, permitindo aos clientes criar mundos de jogos interativos a partir de prompts de texto ou imagens. O objetivo é usar o Genie para experiências educacionais, jogos e treinamento em robótica.
O Genie 3 já está ajudando a alimentar um dos simuladores da Waymo para treinar seus carros autônomos em “eventos extremamente raros”, como tornados ou encontros casuais com elefantes. Adicionar dados do Street View a isso poderia ajudar o Waymo a se preparar para o lançamento em mais cidades ao redor do mundo.
Waymo tem seu próprio simulador, no qual confiou para escalar para 11 cidades dos EUA e testar seu driver de IA em várias outras. A diferença com o Genie, diz Parker-Holder, é que tudo isso é do ponto de vista do carro. O Street View permite não só simular um mundo ancorado num lugar real, mas também mudar o ponto de vista para outros tipos de agentes, como um humano ou um robô.
O Google está lançando o Street View no Genie para alguns usuários do Ultra nos Estados Unidos a partir de hoje, com o acesso sendo implementado em grande escala ao longo do tempo. Os usuários do Global Ultra terão acesso nas próximas semanas, de acordo com a empresa.
O objetivo dos pesquisadores é colocar esse novo recurso no maior número de mãos possível, segundo Diego Rivas, gerente de produto da DeepMind. Ele alertou que o Street View em particular e o Genie em geral ainda são uma experiência, portanto há muito o que melhorar em termos de precisão.
Nas amostras que a equipe do Google me mostrou – incluindo uma simulação subaquática de um bairro onde eu morava – os resultados são impressionantes e reconhecíveis, mas ainda assim com qualidade de videogame, em vez de fotorrealistas. Os modelos também não têm conhecimento da física, o que significa que ainda não entendem causa e efeito. Por exemplo, em uma simulação de uma mulher correndo por um Joshua Tree coberto de neve, ela correu por entre cactos e arbustos.
Compare isso com, digamos, o gerador de imagens Nano Banana do Google – que agora pode gerar texto perfeito em infográficos – ou seu gerador de vídeo Veo – que entende que barcos de papel flutuam nas correntes de água, a fumaça se dispersa no ar e o tecido cobre as formas.
A física não está codificada nesses modelos; eles aprendem intuitivamente ao longo do tempo por meio da observação passiva, como faria um ser vivo.
“Acho que para esse tipo de modelo, talvez esteja de seis a 12 meses atrás do vídeo em termos de precisão e qualidade, então acho que é algo que resolveremos”, disse Parker-Holder.
Jonathan Herbert, diretor do Google Maps que começou na equipe do Street View como estagiário há 12 anos, disse que o Genie ainda não consegue criar uma reconstrução fiel de uma rua. Ele acha que o verdadeiro avanço é a continuidade espacial da IA. Se você girar 360 graus, a IA lembra e simula corretamente o ambiente atrás de você. A partir daí, o modelo pode construir um novo ambiente em cima disso.
“Há muito que pensamos em como podemos construir o melhor e mais rico modelo do mundo com base nos dados do Street View”, disse Herbert. “Definitivamente, é uma ideia nossa usar os dados do Maps de novas maneiras e para novos tipos de pesquisa de IA há muito tempo.”
Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.



