Início Tecnologia Veja como o Siri com tecnologia Gemini provavelmente funcionará nos bastidores

Veja como o Siri com tecnologia Gemini provavelmente funcionará nos bastidores

21
0
Veja como o Siri com tecnologia Gemini provavelmente funcionará nos bastidores

No início desta semana, a Bloomberg informou que Google e Apple estão perto de chegar a um acordo anual de US$ 1 bilhão para uma versão do modelo Gemini que alimentará o Siri renovado no próximo ano.

Mas talvez mais interessante do que o preço seja um factor que irá realmente afectar a experiência de todos: a sua arquitectura. Veja como provavelmente funcionará.

1,2 trilhão de parâmetros é muito?

De acordo com o relatório da Bloomberg, o Google fornecerá à Apple um modelo de parâmetros de 1,2 trilhão, que ficará nos servidores de computação em nuvem privada da Apple, impedindo efetivamente o Google de acessar qualquer um deles. Em termos de privacidade, isso é ótimo.

Em termos de tamanho, um modelo de 1,2 trilhão de parâmetros não é nada desprezível. No entanto, uma comparação direta com os melhores e mais recentes modelos concorrentes é bastante desafiadora.

Isso ocorre porque, nos últimos anos, laboratórios de IA de fronteira fechada, como OpenAI, Anthropic e Google, pararam de divulgar a contagem de parâmetros de seus modelos mais recentes. Isso levou a especulações muito variadas quanto à verdadeira contagem de parâmetros de ofertas como GPT-5, Gemini 2.5 Pro e Claude Sonnet 4.5. Alguns colocam-nos abaixo de um bilião de parâmetros, enquanto outros sugerem que atingem alguns biliões. Na realidade, ninguém sabe realmente.

Por outro lado, uma coisa que a maioria desses enormes modelos mais recentes tem em comum é uma arquitetura subjacente conhecida como mistura de especialistas (MoE). Na verdade, a Apple já emprega um tipo de MoE em seu atual modelo baseado em nuvem, que, segundo rumores, tem 150 bilhões de parâmetros.

O modelo Gemini da Siri provavelmente usará uma mistura de especialistas

Resumindo, MoE é uma técnica que estrutura um modelo com múltiplas sub-redes especializadas chamadas ‘especialistas’. Para cada entrada, apenas alguns especialistas relevantes são ativados, o que resulta em um modelo mais rápido e computacionalmente mais eficiente.

Em outras palavras, isso permite que os modelos MoE tenham contagens de parâmetros muito altas, ao mesmo tempo que mantém os custos de inferência muito mais baixos do que se 100% dos seus parâmetros tivessem que ser ativados para cada entrada.

Aqui está outra coisa sobre os modelos que adotam a abordagem MoE: eles geralmente têm um número máximo de especialistas ativos e um número máximo de parâmetros ativos para cada entrada, resultando em algo assim:

Um modelo com 1,2 trilhão de parâmetros totais pode usar 32 especialistas, com apenas 2 a 4 especialistas ativos por token. Isso significa que apenas cerca de 75–150B de parâmetros estão realmente fazendo cálculos em um determinado momento, proporcionando a capacidade de um modelo massivo e mantendo os custos computacionais semelhantes aos de executar um modelo muito menor.

Aqui está um ótimo vídeo feito pela IBM que explica com mais detalhes como funciona o MoE:

Para ser claro, não houve relatos sobre a arquitetura do modelo que o Google pode fornecer à Apple, caso eles fechem o acordo sobre a suposta parceria. Mas com 1,2 biliões de parâmetros, é muito provável que a abordagem do MoE seja necessária para funcionar de forma eficiente, dadas as alternativas disponíveis actualmente.

Se esse tamanho será suficiente para manter o Siri com tecnologia Gemini competitivo com os modelos que estarão disponíveis quando for lançado no próximo ano, é uma história diferente.

Ofertas de acessórios na Amazon

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.



Fuente