Início Tecnologia Gemini 3 Flash supera Gemini 3 Pro e GPT 5.2 nesses principais...

Gemini 3 Flash supera Gemini 3 Pro e GPT 5.2 nesses principais benchmarks

29
0
Gemini 3 Flash supera Gemini 3 Pro e GPT 5.2 nesses principais benchmarks

As guerras de IA continuam a esquentar. Poucas semanas depois que a OpenAI declarou um “código vermelho” em sua corrida contra o Google, este último lançou seu mais recente modelo leve: Gemini 3 Flash. Este Flash em particular é o mais recente da família Gemini 3 do Google, que começou com o Gemini 3 Pro e o Gemini 3 Deep Think. Mas embora este modelo mais recente pretenda ser uma variante mais leve e menos cara dos modelos Gemini 3 existentes, o Gemini 3 Flash é, na verdade, bastante poderoso por si só. Na verdade, ele supera os modelos Gemini 3 Pro e GPT-5.2 da OpenAI em alguns benchmarks.

Modelos leves normalmente são destinados a consultas mais básicas, a solicitações de orçamento mais baixo ou para serem executados em hardware de menor potência. Isso significa que geralmente são mais rápidos do que modelos mais poderosos que demoram mais para serem processados, mas podem fazer mais. De acordo com o Google, o Gemini 3 Flash combina o melhor de ambos os mundos, produzindo um modelo com o “raciocínio de nível profissional” do Gemini 3, com “latência, eficiência e custo no nível do Flash”. Embora isso provavelmente seja mais importante para os desenvolvedores, os usuários em geral também devem notar as melhorias, já que o Gemini 3 Flash agora é o padrão para o Gemini (o chatbot) e o AI Mode, a pesquisa baseada em IA do Google.

Desempenho do Flash Gemini 3

Você pode ver essas melhorias nas estatísticas de benchmarking relatadas pelo Google para Gemini 3 Flash. No Último Exame da Humanidade, um benchmark de raciocínio acadêmico que testa LLMs em 2.500 questões em mais de 100 assuntos, o Gemini 3 Flash obteve 33,7% sem ferramentas e 43,5% com pesquisa e execução de código. Compare isso com as pontuações de 37,5% e 45,8% do Gemini 3 Pro, respectivamente, ou com as pontuações GPT-5.2 da OpenAI de 34,5% e 45,5%. No MMMU-Pro, um benchmark que testa a compreensão e o raciocínio multimodal de um modelo, o Gemini 3 Flash obteve a pontuação máxima (81,2%), em comparação com o Gemini 3 Pro (81%) e o GPT-5.2 (79,5). Na verdade, entre os 21 testes de benchmarking que o Google destaca em seu anúncio, o Gemini 3 Flash obteve a pontuação máxima em três: MMMU-Pro (empatado com Gemini 3 Pro), Toolathlon e MMMLU. O Gemini 3 Pro ainda ocupa o primeiro lugar na maioria dos testes aqui (14), e o GPT-5.2 superou oito testes, mas o Gemini 3 Flash está se mantendo bem.

O Google observa que o Gemini 3 Flash também supera o Gemini 3 Pro e toda a série 2.5 no benchmark SWE-bench Verified, que testa as capacidades do agente de codificação do modelo. Gemini 3 Flash obteve 78%, enquanto Gemini 3 Pro obteve 76,2%, Gemini 2.5 Flash obteve 60,4% e Gemini 2.5 Pro obteve 59,6%. (Observe que o GPT-5.2 obteve a melhor pontuação dos modelos mencionados pelo Google neste anúncio.) É uma corrida acirrada, especialmente quando você considera que este é um modelo leve que pontua ao lado dos modelos carro-chefe da empresa.

Custo do Flash Gêmeos 3

Isso pode representar um dilema interessante para os desenvolvedores que pagam para usar modelos de IA em seus programas. O Gemini 3 Flash custa US$ 0,50 por cada milhão de tokens de entrada (o que você pede ao modelo para fazer) e US$ 3,00 por cada milhão de tokens de saída (o resultado que os modelos retornam do seu prompt). Compare isso com o Gemini 3 Pro, que custa US$ 2,00 por cada milhão de tokens de entrada e US$ 12,00 por cada milhão de tokens de saída, ou os custos de US$ 3,00 e US$ 15,00 do GPT-5.2, respectivamente. Pelo que vale a pena, não é tão barato quanto Gemini 2.5 Flash (US$ 0,30 e US$ 2,50) ou Grok 4.1 Fast (US$ 0,20 e US$ 0,50), mas supera esses modelos nos benchmarks relatados pelo Google. O Google observa que o Gemini 3 Flash usa em média 30% menos tokens do que o 2.5 Pro, o que economizará custos e será três vezes mais rápido.

Se você precisa de LLMs como o Gemini 3 Flash para alimentar seus produtos, mas não quer pagar os custos mais altos associados a modelos mais potentes, posso imaginar este último modelo leve parecendo atraente do ponto de vista financeiro.

Como o usuário médio experimentará o Gemini 3 Flash

A maioria de nós que usa IA não o faz como desenvolvedores que precisam se preocupar com os preços da API. A maioria dos usuários do Gemini provavelmente está experimentando o modelo por meio dos produtos de consumo do Google, como Search, Workspace e o aplicativo Gemini.

O que você acha até agora?

A partir de hoje, o Gemini 3 Flash é o modelo padrão no aplicativo Gemini. O Google afirma que pode realizar muitas tarefas “em apenas alguns segundos”. Isso pode incluir pedir dicas a Gêmeos sobre como melhorar suas tacadas de golfe com base em um vídeo seu ou enviar um discurso sobre um determinado tópico histórico e solicitar quaisquer fatos que você possa ter perdido. Você também pode pedir ao bot para codificar um aplicativo funcional a partir de uma série de pensamentos.

Você também experimentará o Gemini 3 Flash no modo AI da Pesquisa Google. O Google diz que o novo modelo é melhor para “analisar as nuances da sua pergunta” e pensa em cada parte da sua solicitação. O Modo AI tenta retornar um resultado de pesquisa mais completo, examinando centenas de sites de uma só vez e reunindo um resumo com fontes para sua resposta. Teremos que ver se o Gemini 3 Flash melhora as iterações anteriores do modo AI.

Sou alguém que ainda não encontra muita utilidade para produtos generativos de IA em sua vida cotidiana e não tenho certeza se o Gemini 3 Flash mudará isso para mim. No entanto, o equilíbrio entre ganhos de desempenho e custo para processar esse poder é interessante, e estou particularmente intrigado para ver como o OpenAI responde.

Gemini 3 Flash está disponível para todos os usuários a partir de hoje. Além dos usuários gerais no Gemini e no modo AI, os desenvolvedores encontrarão isso na API Gemini no Google AI Studio, no Gemini CLI e no Google Antigravity, a nova plataforma de desenvolvimento de agentes da empresa. Os usuários corporativos podem usá-lo no Vertex AI e no Gemini Enterprise.

Fuente