Início Tecnologia O Google apresenta ‘cache implícito’ para reduzir o custo do acesso aos...

O Google apresenta ‘cache implícito’ para reduzir o custo do acesso aos modelos de IA.

12
0
Edição de imagem do Google Gemini

O Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus mais recentes modelos de IA mais baratos para desenvolvedores de terceiros.

O Google chama o recurso de “cache implícito” e diz que pode gerar 75% de economia no “contexto repetitivo” passado aos modelos através da API Gemini. Ele suporta modelos Gemini 2.5 Pro e 2.5 Flash do Google.

É provável que seja bem -vindo notícias aos desenvolvedores, à medida que o custo do uso de modelos de fronteira continua a crescer.

Acabamos de enviar um cache implícito na API Gemini, permitindo automaticamente uma economia de custo de 75% com os modelos Gemini 2.5 quando sua solicitação atingir um cache

Também abaixamos o token Min necessário para acertar caches em 1K em 2,5 flash e 2k no 2,5 Pro!

– Logan Kilpatrick (@OfficialLogank) 8 de maio, 2025 caches podem armazenar respostas às perguntas que os usuários pedem com frequência, eliminando a necessidade de o modelo recriar respostas. Por exemplo, os caches podem armazenar respostas às perguntas que os usuários geralmente pedem a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.

O Google oferece anteriormente cache de cache de modelo, mas apenas um cache explícito, o que significa que os desenvolvedores tiveram que definir seus avisos de maior frequência. Embora a economia de custos deva ter sido garantida, o processo manual de cache imediato explícito era frequentemente um aborrecimento. A equipe de Gêmeos pediu desculpas e prometeu implementar mudanças depois que as queixas atingiram o pico da febre na última semana. Ele é ativado por padrão no modelo Gemini 2.5 e passa a economia de custos para o usuário se uma solicitação de API atingir um cache.

Evento do TechCrunch

Berkeley, CA.

|

5 de junho

Reserve agora

Quando você envia uma solicitação para um dos modelos Gemini 2.5, se a solicitação compartilha um prefixo comum como um dos pedidos anteriores, será elegível para um acerto de cache “, explicou o Google em um post de blog. O Google diz que o número mínimo de token para permitir um cache implícito para o seu flash e 2,5 Pro é o que não é 1,024; para 2.5 Pro It Is It Is 2,08. Muito para que isso aconteça.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here