Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA da indústria. Saiba mais
À medida que rumores e relatórios circulam sobre as dificuldades enfrentadas pelas principais empresas de IA em desenvolver modelos de linguagem de grande porte (LLMs) mais novos e poderosos, o foco está cada vez mais se deslocando para arquiteturas alternativas ao “Transformer” — a tecnologia que sustenta a maior parte do atual boom da IA generativa, introduzida por pesquisadores do Google no seminal artigo de 2017 “Attention Is All You Need.“
Conforme descrito nesse artigo e em diante, um Transformer é uma arquitetura de rede neural de deep learning que processa dados sequenciais, como texto ou informações de séries temporais.
Agora, a startup Liquid AI, nascida no MIT, lançou o STAR (Synthesis of Tailored Architectures), um framework inovador projetado para automatizar a geração e otimização de arquiteturas de modelos de IA.
O framework STAR utiliza algoritmos evolucionários e um sistema de codificação numérica para abordar o complexo desafio de equilibrar qualidade e eficiência em modelos de deep learning.
De acordo com a equipe de pesquisa da Liquid AI, que inclui Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli e Michael Poli, a abordagem do STAR representa uma mudança em relação aos métodos tradicionais de design de arquitetura.
Em vez de confiar na sintonia manual ou templates pré-definidos, o STAR utiliza uma técnica de codificação hierárquica — referida como “genomas STAR” — para explorar um vasto espaço de design de arquiteturas potenciais.
Esses genomas permitem processos de otimização iterativa, como recombinação e mutação, permitindo ao STAR sintetizar e refinar arquiteturas personalizadas de acordo com métricas e requisitos de hardware específicos.
Redução de 90% no tamanho do cache em comparação com Transformers de ML tradicionais
O foco inicial da Liquid AI para o STAR tem sido a modelagem de linguagem autorregressiva, uma área onde as arquiteturas tradicionais de Transformer há muito dominam.
Em testes realizados durante sua pesquisa, a equipe de pesquisa da Liquid AI demonstrou a capacidade do STAR de gerar arquiteturas que consistentemente superaram modelos Transformer++ e híbridos altamente otimizados.
Por exemplo, ao otimizar para qualidade e tamanho do cache, as arquiteturas evoluídas pelo STAR alcançaram reduções de tamanho de cache de até 37% em comparação com modelos híbridos e 90% em comparação com Transformers. Apesar dessas melhorias de eficiência, os modelos gerados pelo STAR mantiveram ou superaram o desempenho preditivo de seus concorrentes.
Da mesma forma, quando incumbido de otimizar para qualidade e tamanho do modelo, o STAR reduziu a contagem de parâmetros em até 13% enquanto ainda melhorava o desempenho em benchmarks padrão.
A pesquisa também destacou a capacidade do STAR de escalar seus designs. Um modelo evoluído pelo STAR que escalou de 125 milhões para 1 bilhão de parâmetros entregou resultados comparáveis ou superiores aos existentes modelos Transformer++ e híbridos, tudo isso enquanto reduzia significativamente os requisitos de cache de inferência.
Re-arquitetando a arquitetura do modelo de IA
A Liquid AI declarou que o STAR está fundamentado em uma teoria de design que incorpora princípios de sistemas dinâmicos, processamento de sinais e álgebra linear numérica.
Essa abordagem fundamental permitiu à equipe desenvolver um espaço de busca versátil para unidades computacionais, englobando componentes como mecanismos de atenção, recorrências e convoluções.
Uma das características distintivas do STAR é sua modularidade, que permite ao framework codificar e otimizar arquiteturas em múltiplos níveis hierárquicos. Essa capacidade fornece insights sobre motivos de design recorrentes e permite que os pesquisadores identifiquem combinações eficazes de componentes arquitetônicos.
O que vem a seguir para o STAR?
A capacidade do STAR de sintetizar arquiteturas eficientes e de alto desempenho tem aplicações potenciais muito além da modelagem de linguagem. A Liquid AI prevê que esse framework será usado para enfrentar desafios em várias áreas onde o equilíbrio entre qualidade e eficiência computacional é crítico.
Embora a Liquid AI ainda não tenha divulgado planos específicos para implantação comercial ou preços, os resultados da pesquisa sinalizam um avanço significativo no campo do design automatizado de arquiteturas. Para pesquisadores e desenvolvedores que buscam otimizar sistemas de IA, o STAR pode representar uma ferramenta poderosa para empurrar os limites de desempenho e eficiência dos modelos.
Com sua abordagem de pesquisa aberta, a Liquid AI publicou os detalhes completos do STAR em um artigo revisado por pares, incentivando a colaboração e a inovação adicional. À medida que o cenário da IA continua a evoluir, frameworks como o STAR estão prontos para desempenhar um papel fundamental na formação da próxima geração de sistemas inteligentes. O STAR pode até anunciar o surgimento de um novo boom de arquiteturas pós-Transformer — um presente de fim de ano bem-vindo para a comunidade de pesquisa em machine learning e IA.
VB Daily
Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente
Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Little Umbrella faz a chuva de investimentos após o sucesso do jogo social Death by AI
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para ficar por dentro das últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de ponta.…
A OpenAI oferecerá sua tecnologia para laboratórios nacionais dos EUA para pesquisa em armas nucleares.
[the_ad id="145565"] A OpenAI anunciou que pretende permitir que os Laboratórios Nacionais dos EUA, a rede de laboratórios de P&D do Departamento de Energia, utilizem seus…
Esses egressos de Yale e Berkeley acabaram de levantar 2 milhões de dólares para construir um assistente de IA que pode rivalizar com a OpenAI
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba mais…