Início Tecnologia O novo modelo Images 2.0 do ChatGPT é surpreendentemente bom na geração...

O novo modelo Images 2.0 do ChatGPT é surpreendentemente bom na geração de texto

23
0
Fundadores do fundo Zero Shot

Costumava ser fácil distinguir entre imagens feitas por humanos e imagens geradas por IA – há apenas dois anos, não era possível usar modelos de imagem para criar um menu para um restaurante mexicano sem inventar novas delícias culinárias como “enchuita”, “churiros”, “burrto” e “margartas”.

Agora, quando peço ao novo modelo ChatGPT Images 2.0 um cardápio de comida mexicana, ele cria algo que poderia ser usado imediatamente em um restaurante, sem que os clientes notifiquem que algo está errado. (No entanto, o ceviche custa US$ 13,50 pode me fazer questionar a qualidade do peixe).

Créditos da imagem:Imagens ChatGPT 2.0

Para efeito de comparação, aqui está o resultado que obtive do DALL-E 3 há dois anos. (Na época, o ChatGPT não gerava imagens):

Créditos da imagem:Microsoft Designer (DALL-E 3)

Os geradores de imagens de IA historicamente têm dificuldade em soletrar porque geralmente usam modelos de difusão, que funcionam reconstruindo imagens a partir do ruído.

“Os modelos de difusão (…) estão reconstruindo uma determinada entrada”, disse Asmelash Teka Hadgu, fundador e CEO da Lesan AI, ao TechCrunch em 2024. “Podemos assumir que os escritos em uma imagem são uma parte muito, muito pequena, então o gerador de imagem aprende os padrões que cobrem mais desses pixels.”

Desde então, os pesquisadores exploraram outros mecanismos para geração de imagens, como modelos autorregressivos, que fazem previsões sobre a aparência de uma imagem e funcionam mais como um LLM.

Infelizmente, a OpenAI se recusou a responder a uma pergunta em uma coletiva de imprensa esta semana sobre que tipo de modelo está alimentando o ChatGPT Images 2.0.

Evento Techcrunch

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

A empresa, no entanto, explicou que o novo modelo tem “capacidades de pensamento”, que lhe dão a capacidade de pesquisar na web, criar várias imagens a partir de um prompt e verificar novamente suas criações – isso permite que a Images 2.0 crie ativos de marketing em vários tamanhos, bem como histórias em quadrinhos com vários painéis.

A OpenAI também afirma que o Images tem uma compreensão mais forte da renderização de texto não latino em idiomas como japonês, coreano, hindi e bengali. O conhecimento do modelo é interrompido em dezembro de 2025, o que pode afetar a precisão com que ele pode gerar certos avisos envolvendo notícias recentes.

“O Images 2.0 traz um nível sem precedentes de especificidade e fidelidade à criação de imagens. Ele não só pode conceituar imagens mais sofisticadas, mas também dá vida a essa visão de maneira eficaz, capaz de seguir instruções, preservar os detalhes solicitados e renderizar os elementos refinados que muitas vezes quebram os modelos de imagem: texto pequeno, iconografia, elementos de interface do usuário, composições densas e restrições estilísticas sutis, tudo com resolução de até 2K”, disse OpenAI em um comunicado à imprensa.

Esses recursos significam que a geração de imagens não é tão rápida quanto digitar uma pergunta no ChatGPT, mas gerar algo complexo como uma história em quadrinhos com vários painéis ainda leva apenas alguns minutos.

Todos os usuários do ChatGPT e Codex poderão acessar o Images 2.0 a partir de terça-feira; usuários pagos poderão gerar resultados mais avançados. A empresa também disponibilizará a API gpt-image-2, com preços dependentes da qualidade e resolução dos resultados.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Fuente