Pesquisadores da Microsoft afirmam ter desenvolvido o maior modelo de IA de 1 bit, também conhecido como “bitnet”, até hoje. Chamado de BitNet b1.58 2B4T, está disponível abertamente sob licença MIT e pode ser executado em CPUs, incluindo o M2 da Apple.
Os bitnets são essencialmente modelos compactos projetados para rodar em hardwares leves. Em modelos tradicionais, os pesos, os valores que definem a estrutura interna de um modelo, frequentemente são quantizados para que os modelos funcionem bem em uma ampla gama de máquinas. A quantização dos pesos reduz o número de bits — as menores unidades que um computador pode processar — necessários para representar esses pesos, permitindo que os modelos operem em chips com menos memória, de forma mais rápida.
Os bitnets quantizam os pesos em apenas três valores: -1, 0 e 1. Em teoria, isso os torna muito mais eficientes em termos de memória e computação do que a maioria dos modelos atuais.
Os pesquisadores da Microsoft afirmam que o BitNet b1.58 2B4T é o primeiro bitnet com 2 bilhões de parâmetros, sendo que “parâmetros” são em grande parte sinônimos de “pesos.” Treinado em um conjunto de dados de 4 trilhões de tokens — equivalente a cerca de 33 milhões de livros, segundo uma estimativa — o BitNet b1.58 2B4T supera modelos tradicionais de tamanhos semelhantes, afirmam os pesquisadores.
É importante ressaltar que o BitNet b1.58 2B4T não supera completamente modelos rivais de 2 bilhões de parâmetros, mas aparentemente se mantém bem. De acordo com os testes dos pesquisadores, o modelo supera o Llama 3.2 1B da Meta, o Gemma 3 1B do Google e o Qwen 2.5 1.5B da Alibaba em benchmarks como GSM8K (uma coleção de problemas matemáticos de nível escolar) e PIQA (que testa habilidades de raciocínio físico do senso comum).
Talvez mais impressionante, o BitNet b1.58 2B4T seja mais rápido do que outros modelos de seu tamanho — em alguns casos, o dobro da velocidade — enquanto utiliza uma fração da memória.
No entanto, há um porém.
Para alcançar esse desempenho, é necessário usar a estrutura personalizada da Microsoft, bitnet.cpp, que atualmente funciona apenas com certos hardwares. Os GPUs, que dominam a infraestrutura de IA, estão ausentes da lista de chips suportados.
Isso tudo para dizer que os bitnets podem ter um grande potencial, especialmente para dispositivos com recursos limitados. Mas a compatibilidade é — e provavelmente continuará a ser — um grande obstáculo.
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…