Durante sua grande palestra I/O 2026, o Google anunciou o Gemini Omni, um modelo de IA que pode gerar vídeos de, bem, praticamente qualquer coisa. Nas semanas desde o anúncio, os assinantes puderam usar uma mistura de texto, imagens, documentos e videoclipes para gerar novos vídeos de IA. Agora, o Google está lançando um novo recurso Omni, que permite gerar avatares hiper-realistas de você mesmo. No momento, está limitado a vídeos (ainda não há fotos de perfil de IA), mas faz um trabalho surpreendentemente bom ao criar um vídeo falante com apenas algumas selfies de referência – superando o que o aplicativo Sora de curta duração conseguiu. Com Omni, o Google lançou uma ferramenta que permite criar vídeos falsos de você mesmo (e somente de você) em poucos minutos. Estamos prontos para isso?
Você pode criar seu próprio deepfake com Gemini Omni hoje mesmo
Crédito: Khamosh Pathak
Felizmente, você não pode tirar uma selfie e transformá-la em um vídeo deepfake. Você precisa passar por um processo de verificação do Google que exige a digitalização do seu rosto. Depois de ter acesso a este recurso Omni, vá para a barra lateral do Gemini e toque em Vídeos. Você verá um pop-up aqui para criar seu próprio avatar. Se você não vê-lo, clique no Mais botão na caixa de prompt do Gemini e toque em avatar. Gemini irá direcioná-lo para um site do Google para escanear seu rosto. Aqui, você tira algumas selfies e move o rosto de um lado para o outro. Então, você diz alguns números em voz alta e pronto. Você nem precisa falar palavras ou frases. Feito o processo, o avatar estará pronto e você poderá voltar para o Gemini.
Agora, de volta à seção “Vídeos”, digite “@(seu nome)” para usar seu próprio avatar em seus vídeos. A geração de um vídeo leva alguns minutos e você receberá uma notificação quando estiver pronto. Você pode reproduzir o vídeo no aplicativo, salvá-lo em sua galeria ou compartilhá-lo por meio de um link ou com o próprio arquivo de vídeo. Existem algumas limitações adicionais aqui: o novo recurso de avatar do Gemini está disponível apenas para assinantes AI Pro ou AI Ultra que usam contas pessoais. Além disso, o recurso é limitado a usuários com 18 anos ou mais e não está disponível no Espaço Econômico Europeu, na Suíça ou no Reino Unido. No momento, ele só pode gerar áudio em inglês. Cada geração carrega uma marca d’água Gemini óbvia, mas também é codificada com SynthID, o novo padrão da indústria do Google para marcar sutilmente vídeos e imagens de IA usando metadados que podem ser rastreados mesmo se o vídeo for cortado.
Você faria um deepfake?
Depois de brincar com esse recurso o dia todo e gerar uma série de vídeos, fica claro que essa ferramenta é surpreendentemente boa. Não estamos preparados para uma era em que as tecnologias deepfake sejam tão predominantes e de fácil acesso. Você pode ver isso no exemplo abaixo: Pedi ao Gemini para gerar um vídeo meu analisando o iPhone 17 Pro e solicitei que me incluísse dizendo uma frase específica. Isso aconteceu.
O que você acha até agora?
Claro, existem limitações e também posso encontrar muitas falhas. Pedi um review do iPhone 17 Pro, mas o vídeo usou um iPhone 16 Pro. A certa altura, algo aparece espontaneamente acima de um dos muitos fones de ouvido ao fundo. E embora o áudio pareça minha voz real, não há cadência nele. Não há personalidade, apenas uma entrega monótona. E isso se estende aos próprios vídeos. Sou eu, um humano, dizendo coisas, mas o vídeo parece bastante sem vida. É muito limpo e muito afiado, e meu cabelo nem sempre fica tão bonito. Se você sabe o que procurar, não é necessariamente difícil dizer que se trata, em última análise, de um deepfake de IA (se a marca d’água Gemini e o rótulo de IA no YouTube não o revelassem). Mas a questão é: por quanto tempo isso será verdade? E quem olhará profundamente?
Os vídeos estão limitados a 10 segundos no momento e você não pode editá-los ou fazer alterações, portanto o potencial de abuso aqui ainda é muito pequeno. Dito isto, de acordo com os anúncios do Google, eles estão atualmente coletando feedback. A empresa afirma que “em termos de edição de vídeos para alterar áudio e fala, ainda estamos trabalhando para testar isso e entender melhor como podemos levar esse recurso aos usuários de forma responsável”, portanto, há a possibilidade de uma interface de edição interativa no futuro. Em breve, os usuários poderão se colocar em vídeos que possam ajustar às suas especificações exatas antes de enviá-los para a Internet mais ampla. Podemos não estar prontos para isso.