Início Tecnologia Como o novo gerador de imagens do ChatGPT se compara ao Nano...

Como o novo gerador de imagens do ChatGPT se compara ao Nano Banana Pro da Gemini

51
0
Imagens de Gêmeos

Após as principais atualizações de edição de imagens adicionadas ao Google Gemini em agosto – sob o codinome extravagante Nano Banana – é a vez da OpenAI turbinar as ferramentas que você obtém para manipulações de imagens dentro do ChatGPT. A nova atualização se chama GPT Image 1.5 e está sendo lançada agora para todos os usuários.

Uma das principais melhorias aqui, como foi o caso do Nano Banana, é a maneira como o ChatGPT agora pode editar uma parte específica de uma imagem, mantendo todo o resto consistente. Você pode adicionar ou remover algo, ou alterar a cor ou o estilo de algo, sem acabar com uma imagem totalmente diferente.

Outro recurso que o ChatGPT emprestou do Gemini: a capacidade de combinar várias imagens em uma cena. Quer você e seu melhor amigo na frente da Sydney Harbour Bridge? Não tem problema – basta fornecer as imagens de origem e a IA fará o resto. Você também pode alterar os estilos visuais enquanto mantém detalhes consistentes.

OpenAI afirma que o novo editor e gerador de imagens é capaz de seguir instruções “de forma mais confiável” e renderizar imagens até quatro vezes mais rápido do que antes. O texto pode ser mais variado em estilo e tamanho, e as imagens devem ser mais realistas e livres de erros em geral – embora a OpenAI também admita que ainda há espaço para melhorias.

É a melhor ferramenta geradora de imagens que já vimos no ChatGPT e tudo parece impressionante à primeira vista – mas como ela se compara na prática ao Gemini e ao Nano Banana? Coloquei os dois modelos à prova por meio do plano de US$ 20 por mês em ambas as plataformas (ChatGPT Plus e Google AI Pro, respectivamente) para ver como eles se comparam.

Renderização e edição de imagens

Abra o ChatGPT na web ou no celular e você verá que há uma nova guia Imagens no painel de navegação esquerdo. Isso leva você a uma biblioteca com suas imagens existentes, juntamente com alguns novos prompts para a criação de imagens. Você recebe algumas sugestões de prompts, além de uma variedade de estilos de imagem de retrato predefinidos que você pode aplicar.

Jornalista, luminária e cenário campestre, cortesia de Gêmeos.
Crédito: Gêmeos

Imagens ChatGPT

Um jornalista, uma lâmpada e uma cena campestre, cortesia do ChatGPT.
Crédito: ChatGPT

Testei o novo modelo GPT Image 1.5 fazendo com que o ChatGPT gerasse um jornalista de tecnologia ocupado, uma lâmpada no meio de um armazém vazio e uma paisagem ondulada de colinas no meio do nevoeiro em estilo de desenho animado. Em seguida, fiz com que Gemini criasse as mesmas imagens com as mesmas instruções. Embora os resultados tenham sido bastante variados, em termos de qualidade e realismo eles eram bastante iguais – problemas ocasionais com física estranha e repetição, mas nada de muito ruim.

Tanto o ChatGPT quanto o Gemini agora também são bastante competentes em edições limpas de imagens: os dois bots de IA trocaram perfeitamente as roupas do jornalista por camisa e gravata, sem tocar em nenhuma outra parte da imagem. Isso levaria muito tempo para ser feito manualmente, mesmo por um especialista em Photoshop, e mostra o quão transformadoras as imagens de IA estão se tornando.

As mudanças de cores foram todas tratadas com desenvoltura, mas as IAs tiveram um pouco de dificuldade com as mudanças de perspectiva, onde pedi para ver a mesma foto de outro ângulo. Nesses casos, as instruções foram menos seguidas e as imagens menos consistentes (já que novas áreas precisavam ser renderizadas), embora o ChatGPT tenha se saído um pouco melhor que o Gemini na obtenção de bons resultados.

Imagens de Gêmeos

As roupas agora podem ser trocadas em segundos (edição Gemini).
Crédito: Gêmeos

Imagens ChatGPT

As roupas agora podem ser trocadas em segundos (edição ChatGPT).
Crédito: ChatGPT

O clássico desafio de “remover um objeto desta imagem” foi enfrentado com desenvoltura: tanto Gemini quanto ChatGPT conseguiram remover uma casa de campo do cenário rural com precisão cirúrgica, deixando todo o resto intacto. Novamente, esse é o tipo de edição de imagem demorada que anteriormente exigiria muito esforço cuidadoso e que agora pode ser feita em segundos.

O que você acha até agora?

Imagens de Gêmeos

A tentativa de Gêmeos de remover uma casa de campo.
Crédito: Gêmeos

Imagens ChatGPT

Tentativa do ChatGPT de remover uma casa de campo.
Crédito: ChatGPT

Combinando e remixando imagens

Outro talento que o ChatGPT e o Gemini possuem agora é a capacidade de combinar imagens. Assim, você pode ter fotos separadas suas e de seus pais, colocá-las juntas na mesma foto e adicionar um fundo onde quiser. Você pode obter fotos de família perfeitas sem realmente reunir seus parentes ou ir a qualquer lugar.

Esta foi uma área em que Gemini e ChatGPT tiveram um pouco mais de dificuldade: a destreza de edição ainda era impressionante, mas os resultados nem sempre pareciam uma cena única e coerente. Às vezes, a iluminação está desligada ou elementos de imagens diferentes aparecem em escalas diferentes, e você terá que fazer um pouco mais de ajustes, edições e reprompts para acertar tudo.

O ChatGPT se saiu um pouco melhor ao combinar diferentes imagens e elementos e alterar a aparência geral de uma imagem. Quando tentei fazer com que as IAs misturassem todas as minhas imagens em um filme noir sombrio, o ChatGPT produziu algo bastante consistente – o esforço do Gemini parecia muito mais um trabalho de recortar e colar.

Pode ser divertido remixar fotos repetidas vezes – adicionar novas pessoas, mudar o clima, mudar o local – e esses dois bots agora são capazes de obter resultados incríveis. Remixar fotos de familiares e amigos será popular, mas não é tão fácil: com pessoas que você conhece, qualquer IA generativa adicionada tende a parecer errada, porque nem o ChatGPT nem o Gemini sabem exatamente como essas pessoas são, como sorriem, como são construídas ou como tendem a ficar de pé ou sentadas.

Imagens de Gêmeos

Gêmeos pode combinar imagens – mas elas parecem imagens diferentes.
Crédito: Gêmeos

Imagens ChatGPT

ChatGPT fez um trabalho melhor ao criar uma nova imagem que parecia correta.
Crédito: ChatGPT

Em termos de ChatGPT vs. Gemini, ambos estão em um nível alto agora – um nível que coloca recursos avançados de edição no estilo Photoshop ao alcance de todos. Se algum dos modelos de IA tiver vantagem agora, é o ChatGPT, mas não há muito nele. Também será fascinante ver o próximo destino desses recursos de edição de imagens.

Fuente