Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder de mercado. Saiba mais
A equipe de pesquisadores em IA conhecida como Nous Research está atualmente realizando algo único no espaço em rápida evolução da IA generativa (pelo menos até onde sei): a Nous está em processo de pré-treinamento de um novo modelo de linguagem de 15 bilhões de parâmetros (LLM), utilizando máquinas distribuídas pela internet e pelo mundo, evitando a necessidade de concentrar o desenvolvimento do modelo como tradicionalmente tem sido feito em centros de dados de IA caros e que consomem muita energia, assim como nos “superclusters” de unidades de processamento gráfico (GPUs), como o recentemente concluído pela xAI de Elon Musk em Memphis, Tennessee.
Além disso, a Nous está transmitindo ao vivo o processo de pré-treinamento em um site dedicado — distro.nousresearch.com — mostrando como o modelo está se saindo nos benchmarks de avaliação enquanto avança, além de um mapa simples das várias localizações do hardware de treinamento por trás do exercício, incluindo vários locais nos EUA e na Europa.
No momento da publicação deste artigo, restam aproximadamente 57 horas (2,3 dias) na execução do pré-treinamento, com mais de 75% do processo concluído.
O pré-treinamento é a primeira de duas etapas e, sem dúvida, o aspecto mais fundamental do treinamento de um LLM, pois envolve treinar o modelo em um vasto corpus de dados textuais para aprender as propriedades estatísticas e estruturas da linguagem. O modelo processa extensos conjuntos de dados textuais, capturando padrões, gramática e relações contextuais entre palavras. Esta etapa equipada com uma ampla compreensão da linguagem, permitindo que ele gere textos coerentes e execute várias tarefas relacionadas à linguagem.
Após o pré-treinamento, o modelo passa por um ajuste fino em um conjunto de dados mais específico projetado para tarefas ou domínios particulares.
Se for bem-sucedida, a Nous provará que é possível treinar LLMs de classe de fronteira sem a necessidade de superclusters caros ou transmissão de baixa latência, usando um método de treinamento novo e de código aberto. Isso poderia inaugurar uma nova era de treinamento de IA distribuída como uma fonte importante, ou potencialmente dominante, de novos modelos de IA, deslocando o equilíbrio de poder na IA generativa de grandes empresas de tecnologia bem financiadas para pequenas grupos e atores não corporativos.
Nous DisTrO: a tecnologia por trás do exercício de treinamento
A Nous, que fez manchetes no início deste ano pelo lançamento de sua variante de Meta Llama 3.1 chamada Hermes 3 e por sua missão geral de tornar o desenvolvimento de IA personalizado e irrestrito, está utilizando sua tecnologia de treinamento distribuído de código aberto chamada Nous DisTrO (Treinamento Distribuído pela Internet), que a Nous publicou inicialmente em um artigo de pesquisa em agosto de 2024.
De acordo com a publicação recente da Nous Research, o DisTrO reduz os requisitos de largura de banda de comunicação entre GPUs em até 10.000x durante o pré-treinamento. Essa inovação permite que modelos sejam treinados em conexões de internet mais lentas e acessíveis — potencialmente tão baixas quanto 100Mbps de download e 10Mbps de upload — enquanto mantém taxas de convergência e curvas de perda competitivas.
O avanço central do DisTrO reside em sua capacidade de comprimir eficientemente os dados trocados entre GPUs sem sacrificar o desempenho do modelo.
Conforme descrito em um artigo da VentureBeat de agosto de 2024, o método reduziu os requisitos de comunicação de 74,4 gigabytes para apenas 86,8 megabytes durante um teste usando uma arquitetura Llama 2, um ganho de eficiência de quase 857x. Essa melhoria dramática abre caminho para uma nova era de pesquisa colaborativa em IA descentralizada.
O DisTrO baseia-se em trabalhos anteriores sobre a Otimização de Momento Desacoplado (DeMo), um algoritmo projetado para reduzir a comunicação entre GPUs em várias ordens de magnitude, mantendo um desempenho de treinamento comparável aos métodos tradicionais.
Tanto o algoritmo DeMo quanto a pilha DisTrO fazem parte da missão contínua da Nous Research de descentralizar as capacidades de IA e trazer o desenvolvimento avançado de IA a um público mais amplo.
A equipe também disponibilizou o algoritmo DeMo como código aberto no GitHub, convidando pesquisadores e desenvolvedores de todo o mundo a experimentar e construir com suas descobertas.
Parceiros de hardware
O pré-treinamento do modelo de linguagem de 15 bilhões de parâmetros da Nous Research envolveu contribuições de vários parceiros notáveis, incluindo Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud e o Andromeda Cluster.
Juntos, eles forneceram o hardware heterogêneo necessário para testar as capacidades do DisTrO em um ambiente distribuído do mundo real.
Implicações profundas para o desenvolvimento futuro de modelos de IA
As implicações do DisTrO vão além da inovação técnica. Ao reduzir a dependência de centros de dados centralizados e infraestrutura especializada, o DisTrO oferece um caminho para um ecossistema de pesquisa em IA mais inclusivo e colaborativo.
Instituições menores, pesquisadores independentes e até mesmo entusiastas com acesso à internet de padrão consumível e GPUs podem potencialmente treinar grandes modelos — uma proeza anteriormente reservada a empresas com capital e expertise significativos.
Diederik P. Kingma, coautor do artigo de pesquisa e co-inventor do otimizador Adam, juntou-se à Nous Research como colaborador no desenvolvimento do DeMo e DisTrO. As contribuições de Kingma, ao lado das dos cofundadores da Nous Research, Bowen Peng e Jeffrey Quesnelle, conferem credibilidade ao projeto e sinalizam seu impacto potencial na comunidade de IA mais ampla.
Próximos passos
A Nous Research abriu as portas para um futuro onde o desenvolvimento de IA não é mais dominado por um punhado de corporações. Seu trabalho no DisTrO demonstra que, com as otimizações certas, modelos de IA em larga escala podem ser treinados de maneira eficiente de forma descentralizada.
Embora a demonstração atual tenha utilizado GPUs de ponta como a Nvidia H100, a escalabilidade do DisTrO para hardware menos especializado permanece uma área para exploração adicional.
À medida que a Nous Research continua a refinar seus métodos, as aplicações potenciais dessa tecnologia — que vão desde aprendizado federado descentralizado até o treinamento de modelos de difusão para geração de imagens — podem redefinir os limites da inovação em IA.
VB Daily
Mantenha-se informado! Receba as últimas notícias na sua caixa de entrada diariamente
Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.
Obrigado por se inscrever. Confira mais boletins da VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Os Prêmios de Produto 50 de 2025: É hora de indicar os principais líderes de produto ao redor do mundo
[the_ad id="145565"] Apresentado pela Amplitude Os líderes de produto conduzem a visão de uma empresa, definem seu caminho para o futuro, constroem uma base para o sucesso — e…
Axiado afirma que seu chip pode prevenir ciberataques.
[the_ad id="145565"] Os ciberataques estão aumentando. No primeiro trimestre de 2024, as organizações experimentaram uma média de cerca de 1.300 ataques por semana. O custo dos…
Startup da América Latina, Vambe, vê ARR disparar após a mudança para inteligência artificial conversacional.
[the_ad id="145565"] Quando Nicolás Camhi, Matías Pérez Pefaur e Diego Chahuán (na imagem acima, da esquerda para a direita) lançaram a Vambe no ano passado, eles estavam…