Bolt42

Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder de mercado. Saiba Mais


No que diz respeito à IA generativa, os esforços da Apple parecem estar concentrados, em grande parte, no mobile — nomeadamente na Apple Intelligence rodando em iOS 18, o mais recente sistema operacional para iPhone.

Mas, na verdade, o novo chip de computador Apple M4 — disponível no novo Mac Mini e nos modelos Macbook Pro anunciados no final de outubro de 2024 — é um hardware excelente para executar os modelos de linguagem de código aberto mais potentes já lançados, incluindo o Llama-3.1 405B da Meta, o Nemotron 70B da Nvidia e Qwen 2.5 Coder-32B.

Na verdade, Alex Cheema, co-fundador da Exo Labs, uma startup fundada em março de 2024 para (em suas palavras) “ democratizar o acesso à IA” por meio de clusters de computação multi-dispositivos de código aberto, já fez isso.

Como ele compartilhou na rede social X recentemente, o Cheema, baseado em Dubai, conectou quatro dispositivos Mac Mini M4 (valor de varejo de $599,00) mais um único Macbook Pro M4 Max (valor de varejo de $1,599,00) com o software de código aberto da Exo para rodar o LLM otimizado para desenvolvedores de software da Alibaba Qwen 2.5 Coder-32B.

Depois de tudo, com o custo total do cluster de Cheema em torno de $5.000 no varejo, ainda é significativamente mais barato do que até mesmo um único GPU NVidia H100 (varejo de $25.000 a $30.000).

O valor de executar IA em clusters de computação locais em vez da web

Embora muitos consumidores de IA estejam acostumados a visitar sites como o ChatGPT da OpenAI ou aplicativos móveis que se conectam à web, existem incríveis benefícios de custo, privacidade, segurança e comportamento ao executar modelos de IA localmente em dispositivos que o usuário ou a empresa controla e possui — sem conexão com a web.

Cheema disse que a Exo Labs ainda está trabalhando na construção de suas ofertas de software de grau empresarial, mas ele está ciente de várias empresas que já utilizam o software da Exo para rodar clusters de computação locais para inferências de IA — e acredita que isso se espalhará de indivíduos para empresas nos próximos anos. Por enquanto, qualquer pessoa com experiência em programação pode começar visitando o repositório (repo) da Exo no Github e baixar o software por conta própria.

“A forma como a IA é feita hoje envolve o treinamento desses modelos muito grandes que requerem imenso poder de computação,” explicou Cheema ao VentureBeat em uma entrevista por vídeo mais cedo hoje. “Você tem clusters de GPU custando dezenas de bilhões de dólares, todos conectados em um único data center com interconexões de alta velocidade, rodando sessões de treinamento de seis meses. Treinar grandes modelos de IA é altamente centralizado, limitado a algumas empresas que podem arcar com a escala de computação exigida. E mesmo após o treinamento, executar esses modelos de maneira eficaz é outro processo centralizado.”

Por outro lado, a Exo espera permitir “que as pessoas possuam seus modelos e controlem o que estão fazendo. Se os modelos estão apenas rodando em servidores em imensos data centers, você perde transparência e controle sobre o que está acontecendo.”

De fato, como exemplo, ele observou que alimentou suas próprias mensagens diretas e privadas em um LLM local para poder fazer perguntas sobre aquelas conversas, sem medo de vazarem na web aberta.

“Pessoalmente, eu queria usar a IA em minhas próprias mensagens para fazer coisas como perguntar, ‘Eu tenho mensagens urgentes hoje?’ Isso não é algo que eu quero enviar para um serviço como o GPT,” ele notou.

Usando a velocidade e o baixo consumo de energia do M4 em benefício da IA

O recente sucesso da Exo se deve ao chip M4 da Apple — disponível nas versões regular, Pro e Max que oferecem o que a Apple chama de “o núcleo de GPU mais rápido do mundo” e o melhor desempenho em tarefas de thread único (aquelas que operam em um único núcleo de CPU, enquanto a série M4 possui 10 ou mais).

Baseado no fato de que as especificações do M4 já haviam sido vazadas anteriormente e uma versão já havia sido oferecida no iPad, Cheema estava confiante de que o M4 funcionaria bem para seus propósitos.

“Eu já sabia, ‘vamos conseguir rodar esses modelos,’” disse Cheema ao VentureBeat.

De fato, de acordo com os números compartilhados no X, o cluster Mac Mini M4 da Exo Labs opera Qwen 2.5 Coder 32B a 18 tokens por segundo e Nemotron-70B a 8 tokens por segundo. (Tokens são as representações numéricas de strings de letras, palavras e números — a linguagem nativa da IA.)

A Exo também viu sucesso utilizando hardware Mac anterior, conectando dois Macbook Pro M3 para rodar o modelo Llama 3.1-405B a mais de 5 tok/segundo.

Essa demonstração mostra como as cargas de trabalho de treinamento e inferência de IA podem ser tratadas de forma eficiente, sem depender da infraestrutura em nuvem, tornando a IA mais acessível para consumidores e empresas conscientes de privacidade e custos. Para empresas que trabalham em indústrias altamente regulamentadas, ou mesmo aquelas apenas conscientes do custo, que ainda desejam aproveitar os modelos de IA mais poderosos — as demonstrações da Exo Labs mostram um caminho viável a seguir.

Para empresas com alta tolerância à experimentação, a Exo está oferecendo serviços sob medida, incluindo a instalação e envio de seu software em equipamentos Mac. Uma oferta completa para empresas é esperada no próximo ano.

As origens da Exo Labs: tentando acelerar cargas de trabalho de IA sem GPUs da Nvidia

Cheema, graduado em física pela Universidade de Oxford e que anteriormente trabalhou em engenharia de sistemas distribuídos para empresas de web3 e criptomoedas, foi motivado a lançar a Exo Labs em março de 2024 após encontrar dificuldades devido ao lento progresso da pesquisa em aprendizado de máquina em seu próprio computador.

“Inicialmente, tudo começou apenas como uma curiosidade,” Cheema disse ao VentureBeat. “Eu estava fazendo algumas pesquisas em machine learning e queria acelerar minha pesquisa. Estava demorando muito para executar coisas no meu antigo MacBook, então pensei, ‘ok, tenho alguns outros dispositivos aqui… talvez dispositivos antigos de alguns amigos… há alguma maneira de eu usar os dispositivos deles?’ E ao invés de levar um dia para rodar isso, idealmente, levaria algumas horas. Assim, isso meio que se transformou em um sistema mais geral que permite que você distribua qualquer carga de trabalho de IA entre várias máquinas. Geralmente, você executaria algo em apenas um dispositivo, mas se você quer aumentar a velocidade e entregar mais tokens por segundo do seu modelo, ou deseja acelerar seu treinamento, então a única opção que realmente tem para isso é utilizar mais dispositivos.”

Entretanto, mesmo depois de reunir os dispositivos necessários que tinha por aí e de amigos, Cheema descobriu outro problema: a largura de banda.

“O problema com isso é que agora você tem essa comunicação entre os dispositivos que é realmente lenta,” ele explicou ao VentureBeat. “Portanto, há muitos problemas técnicos difíceis que são muito semelhantes aos problemas de sistemas distribuídos em que eu estava trabalhando anteriormente.”

Como resultado, ele e seu co-fundador Mohamed “Mo” Baioumy, desenvolveram uma nova ferramenta de software, a Exo, que distribui cargas de trabalho de IA entre vários dispositivos para aqueles que não possuem GPUs da Nvidia, e finalmente a disponibilizaram como código aberto no Github em julho por meio de uma Licença Pública Geral GNU, que inclui uso comercial ou pago, desde que o usuário mantenha e disponibilize uma cópia do código-fonte.

Desde então, a Exo viu sua popularidade aumentar constantemente no Github, e a empresa levantou uma quantia não revelada em financiamento de investidores privados.

Benchmarks para guiar a nova onda de inovadores em IA local

Para apoiar ainda mais a adoção, a Exo Labs está se preparando para lançar um site de benchmarking gratuito na próxima semana.

O site fornecerá comparações detalhadas de configurações de hardware, incluindo configurações de dispositivo único e multi-dispositivo, permitindo que os usuários identifiquem as melhores soluções para rodar LLMs com base em suas necessidades e orçamento.

Cheema enfatizou a importância dos benchmarks do mundo real, apontando que estimativas teóricas muitas vezes representam mal as capacidades reais.

“Nosso objetivo é fornecer clareza e incentivar a inovação, mostrando configurações testadas que qualquer um pode replicar,” ele acrescentou.





    19 + oito =




    Bolt42