Início Tecnologia Google lança TurboQuant, um novo algoritmo de compressão de memória AI –...

Google lança TurboQuant, um novo algoritmo de compressão de memória AI – e sim, a internet está chamando-o de ‘Pied Piper’

17
0
Google lança TurboQuant, um novo algoritmo de compressão de memória AI – e sim, a internet está chamando-o de ‘Pied Piper’

Se os pesquisadores de IA do Google tivessem senso de humor, eles teriam chamado TurboQuant, o novo e ultraeficiente algoritmo de compressão de memória de IA anunciado na terça-feira, de “Pied Piper” – ou, pelo menos, é o que a Internet pensa.

A piada é uma referência à startup fictícia Pied Piper que foi o foco da série de TV “Vale do Silício” da HBO, exibida de 2014 a 2019.

O programa acompanhou os fundadores da startup enquanto eles navegavam no ecossistema tecnológico, enfrentando desafios como concorrência de empresas maiores, arrecadação de fundos, problemas de tecnologia e produtos e até (para nossa alegria) impressionando os jurados com uma versão fictícia do TechCrunch Disrupt.

A tecnologia inovadora da Pied Piper no programa de TV foi um algoritmo de compactação que reduziu bastante o tamanho dos arquivos com compactação quase sem perdas. O novo TurboQuant do Google Research também trata de compressão extrema sem perda de qualidade, mas aplicado a um gargalo central em sistemas de IA. Daí as comparações.

O Google Research descreveu a tecnologia como uma nova forma de reduzir a memória de trabalho da IA ​​sem afetar o desempenho. O método de compressão, que utiliza uma forma de quantização vetorial para eliminar gargalos de cache no processamento de IA, permitiria essencialmente que a IA se lembrasse de mais informações, ocupando menos espaço e mantendo a precisão, de acordo com os pesquisadores.

Eles planejam apresentar suas descobertas na conferência ICLR 2026 no próximo mês, juntamente com os dois métodos que tornam essa compressão possível: o método de quantização PolarQuant e um método de treinamento e otimização chamado QJL.

Compreender a matemática envolvida aqui é algo que pesquisadores e cientistas da computação podem ser capazes de fazer, mas os resultados são estimulantes para a indústria de tecnologia como um todo.

Se implementado com sucesso no mundo real, o TurboQuant poderia tornar a execução da IA ​​mais barata, reduzindo sua “memória de trabalho” de tempo de execução – conhecida como cache KV – em “pelo menos 6x”.

Alguns, como o CEO da Cloudflare, Matthew Prince, estão até chamando isso de momento DeepSeek do Google – uma referência aos ganhos de eficiência impulsionados pelo modelo chinês de IA, que foi treinado por uma fração do custo de seus rivais em chips piores, mantendo-se competitivo em seus resultados.

Ainda assim, vale a pena notar que o TurboQuant ainda não foi amplamente implantado; ainda é um avanço de laboratório neste momento.

Isso torna as comparações com algo como DeepSeek, ou mesmo com o fictício Pied Piper, mais difíceis. Na TV, a tecnologia da Pied Piper mudaria radicalmente as regras da computação. Enquanto isso, o TurboQuant pode levar a ganhos de eficiência e sistemas que requerem menos memória durante a inferência. Mas isso não resolveria necessariamente a escassez mais ampla de RAM impulsionada pela IA, uma vez que visa apenas a memória de inferência, não o treinamento – o último dos quais continua a exigir grandes quantidades de RAM.

Fuente