Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta na indústria. Saiba mais
A utilização de IA continua a se expandir, e com mais empresas integrando ferramentas de IA em seus fluxos de trabalho, muitas buscam opções para reduzir os custos associados à execução de modelos de IA.
Para atender à demanda dos clientes, AWS anunciou duas novas funcionalidades no Bedrock para cortar custos na execução de modelos e aplicações de IA, que já estão disponíveis em plataformas concorrentes.
Durante um discurso de destaque na AWS re:Invent, Swami Sivasubramanian, vice-presidente de IA e Dados da AWS, anunciou o Roteamento Inteligente de Prompt no Bedrock e a chegada do Cache de Prompts.
O Roteamento Inteligente de Prompt ajudará os clientes a direcionar os prompts para o tamanho mais adequado, para que um modelo grande não responda a uma consulta simples.
“Os desenvolvedores precisam dos modelos certos para suas aplicações, por isso oferecemos um conjunto diversificado de opções,” disse Sivasubramanian.
A AWS informou que o Roteamento Inteligente de Prompt “pode reduzir custos em até 30% sem comprometer a precisão.” Os usuários precisarão escolher uma família de modelos, e o Roteamento Inteligente de Prompt do Bedrock direcionará os prompts para os modelos de tamanho adequado dentro dessa família.
A movimentação de prompts através de diferentes modelos para otimizar o uso e os custos tem ganhado destaque na indústria de IA. A startup Not Diamond anunciou sua funcionalidade de roteamento inteligente em julho.
A Argo Labs, uma empresa de agentes de voz e cliente da AWS, afirmou que usa o Roteamento Inteligente de Prompt para garantir que os modelos do tamanho correto lidem com as diferentes consultas dos clientes. Perguntas simples de sim ou não, como “Você tem uma reserva?”, são geridas por um modelo menor, enquanto questões mais complicadas, como “Quais opções veganas estão disponíveis?”, seriam encaminhadas para um modelo maior.
Cache de Prompts
A AWS também anunciou que o Bedrock agora suportará cache de prompts, onde o Bedrock pode manter prompts comuns ou repetidos sem acessar o modelo e gerar outro token.
“Os custos de geração de tokens podem rapidamente aumentar, especialmente quando os prompts são frequentemente repetidos,” disse Sivasubramanian. “Queríamos oferecer aos clientes uma maneira fácil de armazenar em cache os prompts dinamicamente sem sacrificar a precisão.”
A AWS afirmou que o cache de prompts reduz custos “em até 90% e latência em até 85% para modelos suportados.”
No entanto, a AWS está um pouco atrasada nessa tendência. O cache de prompts já estava disponível em outras plataformas para ajudar os usuários a reduzir custos ao reutilizar prompts. O Claude 3.5 Sonnet e Haiku da Anthropic oferece cache de prompts em sua API. A OpenAI também expandiu o cache de prompts para sua API.
Usar modelos de IA pode ser caro
Executar aplicações de IA continua sendo caro, não apenas devido ao custo de treinamento dos modelos, mas também ao seu uso. As empresas afirmaram que os custos de utilização da IA ainda são uma das maiores barreiras para uma implementação mais ampla.
À medida que as empresas avançam em direção a casos de uso agentes, ainda existe um custo associado ao acesso do usuário ao modelo e ao agente para começar suas tarefas. Métodos como cache de prompts e roteamento inteligente podem ajudar a reduzir custos limitando quando um prompt acessa a API do modelo para responder a uma consulta.
Os desenvolvedores de modelos, por outro lado, afirmaram que à medida que a adoção cresce, alguns preços de modelos poderiam cair. A OpenAI disse que antecipa que os custos da IA podem diminuir em breve.
Mais modelos
A AWS, que hospeda muitos modelos da Amazon — incluindo seus novos modelos Nova — e de fornecedores de código aberto líderes, adicionará novos modelos ao Bedrock. Isso inclui modelos da Poolside, do Stable Diffusion 3.5 Large da Stability AI e do Ray 2 da Luma. Espera-se que os modelos sejam lançados no Bedrock em breve.
O CEO e cofundador da Luma, Amit Jain, disse ao VentureBeat que a AWS é a primeira parceira provedora de nuvem da empresa a hospedar seus modelos. Jain afirmou que a empresa utilizou o SageMaker HyperPod da Amazon ao construir e treinar os modelos da Luma.
“A equipe da AWS teve engenheiros que se sentiram parte de nossa equipe porque nos ajudaram a resolver problemas. Levou-nos quase uma ou duas semanas para trazer nossos modelos à vida,” disse Jain.
VB Daily
Fique por dentro! Receba as últimas notícias na sua caixa de entrada diariamente
Ao assinar, você concorda com os Termos de Serviço do VentureBeat.
Obrigado por assinar. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
O novo jogo da Tinder com inteligência artificial avalia suas habilidades de conquista
[the_ad id="145565"] Você sabe que a cena de namoro online está ruim quando gigantes do setor, como o Tinder, estão introduzindo personas de IA para os usuários flertarem. Na…
Qualcomm adquire divisão de IA generativa da startup vietnamita VinAI
[the_ad id="145565"] A Qualcomm adquiriu a divisão de IA generativa da VinAI, uma empresa de pesquisa em IA com sede em Hanói, por um valor não revelado, conforme anunciado…
Sam Altman afirma que os problemas de capacidade da OpenAI causarão atrasos nos produtos.
[the_ad id="145565"] Em uma série de publicações no X na segunda-feira, o CEO da OpenAI, Sam Altman, afirmou que a popularidade da nova ferramenta de geração de imagens no…