Pruna AI, uma startup europeia que tem trabalhado em algoritmos de compressão para modelos de IA, está tornando seu framework de otimização código aberto nesta quinta-feira.
A Pruna AI tem criado um framework que aplica vários métodos de eficiência, como cache, poda, quantização e destilação, a um modelo de IA determinado.
“Nós também padronizamos o salvamento e o carregamento dos modelos comprimidos, aplicando combinações desses métodos de compressão, além de avaliar seu modelo comprimido após a compressão,” disse John Rachwan, co-fundador e CTO da Pruna AI, ao TechCrunch.
Em particular, o framework da Pruna AI pode avaliar se houve uma perda de qualidade significativa após a compressão de um modelo e os ganhos de desempenho que você obtém.
“Se eu fosse usar uma metáfora, somos semelhantes à forma como a Hugging Face padronizou transformadores e difusores — como chamá-los, como salvá-los, carregá-los, etc. Estamos fazendo o mesmo, mas para métodos de eficiência,” acrescentou.
Grandes laboratórios de IA já têm usado vários métodos de compressão. Por exemplo, a OpenAI tem contado com a destilação para criar versões mais rápidas de seus modelos principais.
Isso é provavelmente como a OpenAI desenvolveu o GPT-4 Turbo, uma versão mais rápida do GPT-4. Da mesma forma, o modelo de geração de imagem Flux.1-schnell é uma versão destilada do modelo Flux.1 do Black Forest Labs.
A destilação é uma técnica usada para extrair conhecimento de um grande modelo de IA através de um modelo de “professor-aluno”. Os desenvolvedores enviam pedidos a um modelo professor e registram as saídas. As respostas são às vezes comparadas com um conjunto de dados para verificar sua precisão. Essas saídas são então usadas para treinar o modelo aluno, que é treinado para aproximar o comportamento do professor.
“Para grandes empresas, o que elas geralmente fazem é construir essas ferramentas internamente. E o que você encontra no mundo do código aberto geralmente é baseado em métodos únicos. Por exemplo, vamos supor que exista um método de quantização para LLMs, ou um método de cache para modelos de difusão,” disse Rachwan. “Mas você não encontra uma ferramenta que agregue todos eles, que os torne fáceis de usar e combinar. E esse é o grande valor que a Pruna está trazendo agora.”

Enquanto a Pruna AI suporta qualquer tipo de modelo, desde modelos de linguagem grande até modelos de difusão, modelos de conversão de voz para texto e modelos de visão computacional, a empresa está focando mais especificamente em modelos de geração de imagem e vídeo no momento.
Alguns dos usuários existentes da Pruna AI incluem Scenario e PhotoRoom. Além da edição de código aberto, a Pruna AI tem uma oferta para empresas com recursos avançados de otimização, incluindo um agente de otimização.
“O recurso mais empolgante que estaremos lançando em breve será um agente de compressão,” disse Rachwan. “Basicamente, você dá seu modelo e diz: ‘Eu quero mais velocidade, mas não quero que a minha precisão caia mais do que 2%.’ E então, o agente fará a mágica dele. Ele encontrará a melhor combinação para você e retornará. Você não precisa fazer nada como desenvolvedor.”
A Pruna AI cobra por hora pela sua versão profissional. “É semelhante a como você pensaria em um GPU quando aluga um GPU na AWS ou em qualquer serviço de nuvem,” disse Rachwan.
E se seu modelo é uma parte crítica da sua infraestrutura de IA, você acabará economizando muito dinheiro em inferências com o modelo otimizado. Por exemplo, a Pruna AI conseguiu reduzir um modelo Llama em oito vezes sem muita perda usando seu framework de compressão. A Pruna AI espera que seus clientes vejam seu framework de compressão como um investimento que se paga.
A Pruna AI levantou uma rodada de financiamento seed de $6,5 milhões alguns meses atrás. Os investidores na startup incluem EQT Ventures, Daphni, Motier Ventures e Kima Ventures.
Conteúdo relacionado
Uso de Navegador, a ferramenta que facilita a navegação de ‘agentes’ de IA em sites, arrecada US$ 17 milhões
[the_ad id="145565"] Pode que ainda não tenhamos uma definição consensual para “agente” de IA, mas um grande número de startups deseja criar ferramentas “agentes” para…
O debate sobre IA de código aberto: Por que a transparência seletiva constitui um sério risco
[the_ad id="145565"] Participe de nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na…
A Anthropic parece estar utilizando o Brave para impulsionar a busca na web para seu chatbot Claude.
[the_ad id="145565"] No início desta semana, a Anthropic lançou um recurso de busca na web para sua plataforma de chatbot alimentada por IA, Claude, trazendo o bot em…