Hoje, as imagens mais generativas das imagens basicamente se enquadram em duas categorias principais: modelos de difusão, como difusão estável ou modelos de autoridade, como o OpenAI GPT-4O. Mas a Apple acaba de lançar dois documentos que mostram como pode haver espaço para uma terceira técnica esquecida: fluxos de normalização. E com uma pitada de transformadores no topo, eles podem ser mais capazes do que se pensava anteriormente.
Primeiro: o que os fluxos estão normalizando?
Os fluxos de normalização (NFS) são um tipo de modelo de inteligência artificial que funciona aprendendo a transformar matematicamente dados do mundo real (como imagens) em ruído estruturado e, portanto, reverter esse processo para gerar novas amostras.
A grande vantagem é que eles podem calcular a probabilidade exata de cada imagem que geram, uma propriedade que os modelos de difusão não podem fazer. Isso torna os fluxos particularmente atraentes para as tarefas nas quais a compreensão da probabilidade de um resultado realmente importa.
Mas há uma razão pela qual a maioria das pessoas não ouviu muito sobre elas ultimamente: os primeiros modelos de fluxo produziram imagens que pareciam turvas ou sem detalhes e diversidade oferecidas pelos sistemas de difusão e transformadores.
Studio n. 1: Tarflow
No documento “Os fluxos de normalização são modelos generativos capazes”, a Apple apresenta um novo modelo chamado Tarflow, abreviação do fluxo de escala de autor do transformador.
No centro, o Tarflow substitui as antigas camadas artesanais usadas em modelos de fluxo anteriores por blocos de transformador. Basicamente, ele divide as imagens em pequenos remendos e as gera em blocos, com cada bloco fornecido de acordo com todos aqueles que vieram antes. Isso é o que é chamado de autoridade, que é o mesmo método abaixo que o Openi usa atualmente para a geração de imagens.
Imagens de várias resoluções geradas pelos modelos TARFLOW. Da esquerda para a direita, de cima para baixo: imagens 256 × 256 em imagens AFHQ, 128 × 128 e 64 × 64 no Imagenet. Fonte: os fluxos de normalização são modelos generativos capazes
A principal diferença é que, embora o Openi gera discreto, tratando imagens como longas seqüências de símbolos semelhantes ao texto, o Tarflow da Apple gera diretamente os valores dos pixels, sem primeiro morrer a imagem. É uma diferença pequena, mas significativa, porque permite que a Apple evite a perda de qualidade e a rigidez que geralmente chega com as imagens de compactação em um vocabulário fixo de token.
No entanto, havia limites, especialmente quando se tratava de nos reduzir a imagens de maior e alta resolução. E é aqui que o segundo estudo entra em jogo.
Studio n. 2: Starflow
No documento “Starflow: redução do tamanho dos fluxos de normalização latente para a síntese de imagens de alta resolução”, a Apple é baseada diretamente no TARFLOW e apresenta Starflow (fluxo de transformador escalável do autor -angressivo), com as principais atualizações.
A maior mudança: o Starflow não gera mais imagens diretamente no espaço de pixels. Em vez disso, ele basicamente funciona em uma versão compactada da imagem e depois transmite as coisas para um decodificador que reacende tudo para resolução total para a etapa final.
Campeões aleatórios do Starflow no ImageNet 256 × 256 e 512 × 512. Fonte: Starflow: redução do tamanho dos fluxos de normalização latentes para o resumo de imagens de alta resolução
Esta passagem para o que é chamado de espaço latente significa que o Starflow não precisa prever diretamente milhões de pixels. Ele pode primeiro se concentrar na estrutura de imagem mais ampla, deixando detalhes no enredo final para o decodificador.
A Apple também reformulou a maneira como o modelo gerencia as instruções de texto. Em vez de criar um codificador de texto separado, o Starflow pode conectar os modelos de linguagem existentes (como o modelo de idioma pequeno do Google Gemma, que em teoria pode ser executado no dispositivo) para gerenciar o entendimento da linguagem quando o usuário exigir o modelo para criar a imagem. Isso mantém o lado da geração de imagens do modelo focada em refinar os detalhes visuais.
Como Starflow, ele confronta o gerador de imagens 4o do OpenAi
Enquanto a Apple está repensando os fluxos, o Openi também foi além da difusão com seu modelo GPT-4O. Mas a abordagem deles é basicamente diferente.
O GPT-4O trata as imagens como sequências de token discretas, assim como as palavras em uma frase. Quando você pede que o ChatGPT gere uma imagem, o modelo inclui uma imagem de token de cada vez, construindo a peça por peça. Isso fornece enorme flexibilidade do Openi: o mesmo modelo pode gerar texto, imagens e áudio dentro de um único fluxo de token unificado.
O compromisso? A geração simbólica pode ser lenta, especialmente para imagens de grande ou alta resolução. E é extremamente caro computacionalmente. Mas como o GPT-4O trabalha inteiramente na nuvem, o OpenAI não está tão ligado pela latência ou pelo uso do poder.
Em resumo: a Apple e o Opeeni estão indo além da difusão, mas enquanto o Openi está construindo para seus data centers, a Apple está claramente construindo para nossos bolsos.
FTC: Usamos conexões de afiliação automática para obter renda. Além disso.