Bolt42

O Google está lançando um recurso em sua API Gemini que a empresa afirma tornará seus modelos de IA mais baratos para desenvolvedores de terceiros.

O Google chama esse recurso de “caching implícito” e afirma que ele pode oferecer 75% de economia em “contextos repetitivos” enviados para os modelos via API Gemini. Ele é compatível com os modelos Gemini 2.5 Pro e 2.5 Flash.

Isso provavelmente será uma boa notícia para os desenvolvedores, uma vez que o custo de uso de modelos avançados continua a crescer.

O caching, uma prática amplamente adotada na indústria de IA, reutiliza dados frequentemente acessados ou pré-computados dos modelos para reduzir os requisitos computacionais e o custo. Por exemplo, caches podem armazenar respostas para perguntas que os usuários costumam fazer a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.

Anteriormente, o Google oferecia caching de prompts de modelo, mas apenas o caching explícito, o que significa que os desenvolvedores tinham que definir seus prompts de maior frequência. Embora a economia de custos fosse garantida, o caching de prompts explícitos geralmente envolvia muito trabalho manual.

Alguns desenvolvedores não ficaram satisfeitos com a implementação do caching explícito do Google para o Gemini 2.5 Pro, alegando que poderia causar contas de API surpreendentemente altas. As reclamações atingiram um pico na última semana, levando a equipe do Gemini a se desculpar e prometer fazer mudanças.

Em contraste com o caching explícito, o caching implícito é automático. Ativado por padrão para os modelos Gemini 2.5, ele passa economias de custos se uma solicitação da API Gemini a um modelo atingir um cache.

Evento Techcrunch

Berkeley, CA
|
5 de junho

RESERVAR AGORA

“Quando você envia um pedido para um dos modelos Gemini 2.5, se o pedido compartilhar um prefixo comum com um dos pedidos anteriores, ele é elegível para uma economia de cache,” explicou o Google em uma postagem em blog. “Nós passaremos dinamicamente as economias de custos de volta para você.”

A contagem mínima de tokens de prompt para caching implícito é de 1.024 para 2.5 Flash e 2.048 para 2.5 Pro, de acordo com a documentação do desenvolvedor do Google, que não é uma quantidade muito grande, significando que não deve levar muito para ativar essas economias automáticas. Tokens são os bits brutos de dados com os quais os modelos trabalham, com mil tokens equivalendo a cerca de 750 palavras.

Dado que as últimas alegações do Google de economia de custos com caching não se concretizaram, existem algumas áreas de advertência nesta nova funcionalidade. Por um lado, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início dos pedidos para aumentar as chances de hits no cache implícito. O contexto que pode mudar de pedido para pedido deve ser adicionado ao final, segundo a empresa.

Além disso, o Google não ofereceu nenhuma verificação de terceiros de que o novo sistema de caching implícito entregaria as economias automáticas prometidas. Portanto, teremos que ver o que os primeiros adotantes dizem.


    3 × 3 =

    Bolt42