AWS agora permite o armazenamento em cache de prompts com redução de custo de 90%

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta na indústria. Saiba mais

A utilização de IA continua a se expandir, e com mais empresas integrando ferramentas de IA em seus fluxos de trabalho, muitas buscam opções para reduzir os custos associados à execução de modelos de IA.

Para atender à demanda dos clientes, AWS anunciou duas novas funcionalidades no Bedrock para cortar custos na execução de modelos e aplicações de IA, que já estão disponíveis em plataformas concorrentes.

Durante um discurso de destaque na AWS re:Invent, Swami Sivasubramanian, vice-presidente de IA e Dados da AWS, anunciou o Roteamento Inteligente de Prompt no Bedrock e a chegada do Cache de Prompts.

O Roteamento Inteligente de Prompt ajudará os clientes a direcionar os prompts para o tamanho mais adequado, para que um modelo grande não responda a uma consulta simples.

“Os desenvolvedores precisam dos modelos certos para suas aplicações, por isso oferecemos um conjunto diversificado de opções,” disse Sivasubramanian.

A AWS informou que o Roteamento Inteligente de Prompt “pode reduzir custos em até 30% sem comprometer a precisão.” Os usuários precisarão escolher uma família de modelos, e o Roteamento Inteligente de Prompt do Bedrock direcionará os prompts para os modelos de tamanho adequado dentro dessa família.

A movimentação de prompts através de diferentes modelos para otimizar o uso e os custos tem ganhado destaque na indústria de IA. A startup Not Diamond anunciou sua funcionalidade de roteamento inteligente em julho.

A Argo Labs, uma empresa de agentes de voz e cliente da AWS, afirmou que usa o Roteamento Inteligente de Prompt para garantir que os modelos do tamanho correto lidem com as diferentes consultas dos clientes. Perguntas simples de sim ou não, como “Você tem uma reserva?”, são geridas por um modelo menor, enquanto questões mais complicadas, como “Quais opções veganas estão disponíveis?”, seriam encaminhadas para um modelo maior.

Cache de Prompts

A AWS também anunciou que o Bedrock agora suportará cache de prompts, onde o Bedrock pode manter prompts comuns ou repetidos sem acessar o modelo e gerar outro token.

“Os custos de geração de tokens podem rapidamente aumentar, especialmente quando os prompts são frequentemente repetidos,” disse Sivasubramanian. “Queríamos oferecer aos clientes uma maneira fácil de armazenar em cache os prompts dinamicamente sem sacrificar a precisão.”

A AWS afirmou que o cache de prompts reduz custos “em até 90% e latência em até 85% para modelos suportados.”

No entanto, a AWS está um pouco atrasada nessa tendência. O cache de prompts já estava disponível em outras plataformas para ajudar os usuários a reduzir custos ao reutilizar prompts. O Claude 3.5 Sonnet e Haiku da Anthropic oferece cache de prompts em sua API. A OpenAI também expandiu o cache de prompts para sua API.

Usar modelos de IA pode ser caro

Executar aplicações de IA continua sendo caro, não apenas devido ao custo de treinamento dos modelos, mas também ao seu uso. As empresas afirmaram que os custos de utilização da IA ainda são uma das maiores barreiras para uma implementação mais ampla.

À medida que as empresas avançam em direção a casos de uso agentes, ainda existe um custo associado ao acesso do usuário ao modelo e ao agente para começar suas tarefas. Métodos como cache de prompts e roteamento inteligente podem ajudar a reduzir custos limitando quando um prompt acessa a API do modelo para responder a uma consulta.

Os desenvolvedores de modelos, por outro lado, afirmaram que à medida que a adoção cresce, alguns preços de modelos poderiam cair. A OpenAI disse que antecipa que os custos da IA podem diminuir em breve.

Mais modelos

A AWS, que hospeda muitos modelos da Amazon — incluindo seus novos modelos Nova — e de fornecedores de código aberto líderes, adicionará novos modelos ao Bedrock. Isso inclui modelos da Poolside, do Stable Diffusion 3.5 Large da Stability AI e do Ray 2 da Luma. Espera-se que os modelos sejam lançados no Bedrock em breve.

O CEO e cofundador da Luma, Amit Jain, disse ao VentureBeat que a AWS é a primeira parceira provedora de nuvem da empresa a hospedar seus modelos. Jain afirmou que a empresa utilizou o SageMaker HyperPod da Amazon ao construir e treinar os modelos da Luma.

“A equipe da AWS teve engenheiros que se sentiram parte de nossa equipe porque nos ajudaram a resolver problemas. Levou-nos quase uma ou duas semanas para trazer nossos modelos à vida,” disse Jain.

VB Daily

Fique por dentro! Receba as últimas notícias na sua caixa de entrada diariamente

Ao assinar, você concorda com os Termos de Serviço do VentureBeat.

Obrigado por assinar. Confira mais newsletters do VB aqui.

Ocorreu um erro.