Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais


A liberação do R1 pela DeepSeek esta semana foi um momento decisivo no campo da IA. Ninguém imaginava que uma startup chinesa seria a primeira a lançar um modelo de raciocínio que iguala o o1 da OpenAI e o tornaria open-source (em linha com a missão original da OpenAI) ao mesmo tempo.

As empresas podem facilmente baixar os pesos do R1 via Hugging Face, mas o acesso nunca foi o problema — mais de 80% das equipes estão usando ou planejando usar modelos abertos. A implantação é a verdadeira questão. Se você optar por serviços de hyperscaler, como Vertex AI, ficará preso em uma nuvem específica. Por outro lado, se você optar por construir internamente, enfrenta o desafio das restrições de recursos, pois precisa configurar uma dúzia de componentes diferentes apenas para começar, sem mencionar a otimização ou escalonamento posterior.

Para enfrentar esse desafio, a Pipeshift, apoiada pela Y Combinator e pela SenseAI, está lançando uma plataforma de ponta a ponta que permite que as empresas treinem, implantem e escalem modelos de IA generativa open-source — LLMs, modelos de visão, modelos de áudio e modelos de imagem — em qualquer nuvem ou em GPUs locais. A empresa está competindo em um domínio em rápida expansão que inclui Baseten, Domino Data Lab, Together AI e Simplismart.

A proposta de valor chave? A Pipeshift utiliza um motor de inferência modular que pode ser rapidamente otimizado para velocidade e eficiência, ajudando as equipes não apenas a implantar 30 vezes mais rápido, mas a alcançar mais com a mesma infraestrutura, resultando em até 60% de economia de custos.

Imagine executar inferências que normalmente exigiriam quatro GPUs com apenas uma.

O gargalo da orquestração

Quando você precisa executar modelos diferentes, montar uma pilha funcional de MLOps internamente — desde o acesso ao computacional, treinamento e ajuste fino até a implantação e monitoramento em grau de produção — torna-se um problema. Você precisa configurar 10 componentes e instâncias de inferência diferentes para colocar tudo em funcionamento e, em seguida, gastar milhares de horas de engenharia apenas para as menores otimizações.

“Existem vários componentes de um motor de inferência”, disse Arko Chattopadhyay, cofundador e CEO da Pipeshift, ao VentureBeat. “Cada combinação desses componentes cria um motor distinto com desempenho variável para a mesma carga de trabalho. Identificar a combinação ideal para maximizar o ROI exige semanas de experimentação repetitiva e ajuste fino de configurações. Na maioria dos casos, as equipes internas podem levar anos para desenvolver pipelines que permitam a flexibilidade e a modularização da infraestrutura, colocando as empresas atrás no mercado e acumulando enormes dívidas tecnológicas.”

Embora haja startups que oferecem plataformas para implantar modelos abertos em ambientes de nuvem ou locais, Chattopadhyay afirma que a maioria delas atua como corretores de GPU, oferecendo soluções de inferência padronizadas. Como resultado, elas mantêm instâncias separadas de GPU para diferentes LLMs, o que não ajuda equipes que desejam economizar custos e otimizar o desempenho.

Para resolver isso, Chattopadhyay fundou a Pipeshift e desenvolveu um framework chamado arquitetura modular para clusters de inferência baseados em GPU (MAGIC), com o objetivo de distribuir a pilha de inferência em diferentes peças plug-and-play. O trabalho criou um sistema semelhante a Lego que permite às equipes configurar a pilha de inferência certa para suas cargas de trabalho, sem a complicação da engenharia de infraestrutura.

Dessa forma, uma equipe pode rapidamente adicionar ou trocar diferentes componentes de inferência para montar um motor de inferência personalizado que pode extrair mais da infraestrutura existente para atender às expectativas de custos, desempenho ou até mesmo escalabilidade.

Por exemplo, uma equipe poderia configurar um sistema de inferência unificado, onde vários LLMs específicos de domínio poderiam ser executados com troca rápida em uma única GPU, utilizando-a ao máximo.

Executando quatro cargas de trabalho de GPU em uma

Uma coisa é afirmar oferecer uma solução de inferência modular, outra é realmente cumprir essa promessa, e o fundador da Pipeshift foi rápido em apontar os benefícios da oferta da empresa.

“Em termos de despesas operacionais… o MAGIC permite que você execute LLMs como Llama 3.1 8B a >500 tokens/segundo em um determinado conjunto de GPUs Nvidia, sem qualquer quantização ou compressão de modelo”, disse ele. “Isso desbloqueia uma redução maciça de custos de escalonamento, pois as GPUs agora podem lidar com cargas de trabalho que são uma ordem de magnitude 20-30 vezes maior que o que originalmente eram capazes de alcançar usando as plataformas nativas oferecidas pelos provedores de nuvem.”

O CEO observou que a empresa já está trabalhando com 30 empresas em um modelo baseado em licenciamento anual.

Uma delas é um varejista da Fortune 500 que inicialmente usou quatro instâncias de GPU independentes para rodar quatro modelos ajustados abertamente para seus fluxos de trabalho de suporte automatizado e processamento de documentos. Cada um desses clusters de GPU estava escalando de forma independente, aumentando enorme custos adicionais.

“O ajuste fino em larga escala não era possível à medida que os conjuntos de dados se tornavam maiores e todos os pipelines suportavam cargas de trabalho de GPU única, enquanto eram necessários enviar todos os dados de uma só vez. Além disso, não havia suporte para escalonamento automático com ferramentas como o AWS Sagemaker, o que dificultava garantir o uso otimizado da infraestrutura, forçando a empresa a pré-aprovar cotas e reservar capacidade com antecedência para escalas teóricas que atingiam apenas 5% do tempo”, destacou Chattopadhyay.

Curiosamente, após a transição para a arquitetura modular da Pipeshift, todos os ajustes foram reduzidos a uma única instância de GPU que os servia em paralelo, sem qualquer partição de memória ou degradação de modelo. Isso diminuiu a necessidade de executar essas cargas de trabalho de quatro GPUs para apenas uma GPU.

“Sem otimizações adicionais, conseguimos escalar as capacidades da GPU a um ponto onde servia tokens de inferência cinco vezes mais rápidos e podia lidar com uma escala quatro vezes maior”, acrescentou o CEO. No total, ele afirmou que a empresa viu um prazo de implantação 30 vezes mais rápido e uma redução de 60% nos custos de infraestrutura.

Com a arquitetura modular, a Pipeshift deseja se posicionar como a plataforma de referência para implantar todos os modelos de IA open-source de ponta, incluindo o DeepSeek R-1.

No entanto, não será uma jornada fácil, já que os concorrentes continuam a evoluir suas ofertas.

Por exemplo, a Simplismart, que arrecadou $7 milhões há alguns meses, está adotando uma abordagem semelhante otimizada por software para a inferência. Provedores de serviços em nuvem como Google Cloud e Microsoft Azure também estão reforçando suas respectivas ofertas, embora Chattopadhyay acredite que esses CSPs se tornarão mais parceiros do que concorrentes no longo prazo.

“Nós somos uma plataforma para ferramentas e orquestração de cargas de trabalho de IA, assim como a Databricks tem sido para inteligência de dados”, explicou. “Na maioria dos cenários, os provedores de serviços em nuvem se transformarão em parceiros de GTM em estágio de crescimento para o tipo de valor que seus clientes poderão obter da Pipeshift em suas nuvens AWS/GCP/Azure.”

Nos próximos meses, a Pipeshift também apresentará ferramentas para ajudar as equipes a construir e escalar seus conjuntos de dados, juntamente com avaliação e teste de modelos. Isso acelerará exponencialmente o ciclo de experimentação e preparação de dados, permitindo que os clientes aproveitem a orquestração de forma mais eficiente.





    1 × 4 =




    Bolt42