Início Tecnologia Pesquisadores da Apple revelam LGTM, um impulso potencial para gráficos Apple Vision...

Pesquisadores da Apple revelam LGTM, um impulso potencial para gráficos Apple Vision Pro

13
0
Pesquisadores da Apple revelam LGTM, um impulso potencial para gráficos Apple Vision Pro

Uma equipe de pesquisadores da Apple desenvolveu uma nova estrutura que permite a renderização de cenas 3D de alta resolução com muito maior eficiência. Aqui estão os detalhes do novo estudo.

Um pouco de contexto

Em um novo estudo intitulado Menos Gaussianos, Textura Mais: Splatting Texturizado Feed-Forward 4K, um grupo de pesquisadores da Apple e da Universidade de Hong Kong propõe uma nova estrutura, apropriadamente chamada LGTM.

No estudo, os pesquisadores explicam que, à medida que a resolução aumenta, os métodos existentes de propagação gaussiana 3D rapidamente se tornam muito caros para serem executados, tornando as cenas de alta resolução cada vez mais impraticáveis.

Resumindo, o Splatting Gaussiano 3D feed-forward é uma maneira de um modelo de IA transformar rapidamente uma ou algumas imagens em uma cena 3D que pode ser vista de novos ângulos.

Na verdade, recentemente abordamos o SPLAT, um modelo de código aberto desenvolvido pela Apple, que emprega Splatting gaussiano 3D feed-forward que cria visualizações 3D a partir de uma única imagem 2D e produz resultados impressionantes:

Novo artigo da Apple – Síntese de visão monocular nítida em menos de um segundo

Mescheder et al. A @ Apple acaba de lançar um artigo muito impressionante (parabéns! ). Você fornece uma imagem e ela gera uma representação gaussiana 3D de ótima aparência. Usa profundidade profissional. É muito bom.… pic.twitter.com/XSZCZA8iio

-Tim Davison ᯅ (@timd_ca) 16 de dezembro de 2025

O Splatting gaussiano 3D feed-forward difere das abordagens de otimização por cena, que constroem cada cena individualmente, passo a passo. Embora geralmente demorem mais para serem processados, geralmente podem produzir resultados mais estáveis.

Assim, embora essas abordagens mais antigas possam gastar mais tempo ajustando uma cena específica, os métodos feedforward são muito mais rápidos, embora as versões existentes se tornem difíceis de escalar para resoluções mais altas.

LGTM

Para resolver este problema, os pesquisadores propõem a estrutura LGTM, que “desacopla a complexidade geométrica da resolução de renderização”.

Em outras palavras, separa a estrutura de uma cena de seus detalhes visuais, para que o sistema possa manter a geometria simples enquanto usa texturas para adicionar detalhes de alta resolução.

É importante ressaltar que o LGTM não é um modelo independente. Em vez disso, ele se baseia em métodos de feedforward existentes, aprimorando a forma como eles representam os detalhes, colocando previsões de textura em camadas sobre sua geometria.

A maneira como eles fizeram isso foi dupla:

  1. Eles fizeram o modelo aprender a estrutura da cena a partir de imagens de baixa resolução e, em seguida, verificaram a saída em relação à realidade de alta resolução. Isso forçou o modelo a aprender como produzir uma geometria que ainda parecesse correta, mesmo quando renderizada em 2K ou 4K, evitando lacunas ou artefatos.
  2. Eles introduziram uma segunda rede focada na aparência. Ele captura imagens de alta resolução e aprende texturas detalhadas para cada elemento geométrico, sobrepondo efetivamente detalhes visuais finos sobre a geometria mais simples do primeiro modelo.

O resultado é uma estrutura que pode atualizar sistemas existentes para gerar cenas detalhadas em 4K sem a explosão quadrática nas necessidades de computação que tornou os métodos anteriores de feed-forward impraticáveis ​​em resoluções mais altas.

O que isso pode significar para produtos como o Apple Vision Pro

Atualmente, o Apple Vision Pro possui dois monitores com cerca de 23 milhões de pixels no total, o que significa que cada olho recebe mais pixels do que uma TV 4K.

Como mostra o estudo, o Splatting Gaussiano 3D feed-forward tem dificuldade nessas resoluções. Os monitores podem lidar com isso, mas gerar a cena com rapidez e precisão torna-se um gargalo computacional.

LGTM poderia ajudar a resolver isso no Apple Vision Pro, que por sua vez poderia oferecer desempenho mais suave e visuais mais nítidos em situações onde o Splatting Gaussian 3D feed-forward é necessário.

Na prática, isto poderia traduzir-se em mais oportunidades para desfrutar de ambientes detalhados e imersivos ou de experiências de passagem mais realistas, mantendo ao mesmo tempo a procura de processamento sob controlo.

Para ver o LGTM em ação, confira a página do projeto. Ele apresenta métodos como NoPoSplat, DepthSplat e Flash3D, com e sem LGTM, em entradas de visualização única e de visualização dupla.

Navegando pelos vídeos e imagens de amostra, é fácil ver como o LGTM ajuda a produzir resultados muito mais ricos em detalhes (principalmente em texturas e textos) e mais próximos das imagens reais (rotuladas como GT nas amostras de imagens).

Navegando pelos vídeos e imagens de amostra, é fácil ver como o LGTM ajuda a produzir resultados muito mais ricos em detalhes (principalmente em texturas e textos) e mais próximos das imagens reais (rotuladas como GT nas amostras de imagens).

Vale a pena conferir na Amazon

Adicione 9to5Mac como fonte preferencial no Google
Adicione 9to5Mac como fonte preferencial no Google

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.



Fuente