Bolt42

Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA da indústria. Saiba mais


À medida que rumores e relatórios circulam sobre as dificuldades enfrentadas pelas principais empresas de IA em desenvolver modelos de linguagem de grande porte (LLMs) mais novos e poderosos, o foco está cada vez mais se deslocando para arquiteturas alternativas ao “Transformer” — a tecnologia que sustenta a maior parte do atual boom da IA generativa, introduzida por pesquisadores do Google no seminal artigo de 2017 “Attention Is All You Need.

Conforme descrito nesse artigo e em diante, um Transformer é uma arquitetura de rede neural de deep learning que processa dados sequenciais, como texto ou informações de séries temporais.

Agora, a startup Liquid AI, nascida no MIT, lançou o STAR (Synthesis of Tailored Architectures), um framework inovador projetado para automatizar a geração e otimização de arquiteturas de modelos de IA.

O framework STAR utiliza algoritmos evolucionários e um sistema de codificação numérica para abordar o complexo desafio de equilibrar qualidade e eficiência em modelos de deep learning.

De acordo com a equipe de pesquisa da Liquid AI, que inclui Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli e Michael Poli, a abordagem do STAR representa uma mudança em relação aos métodos tradicionais de design de arquitetura.

Em vez de confiar na sintonia manual ou templates pré-definidos, o STAR utiliza uma técnica de codificação hierárquica — referida como “genomas STAR” — para explorar um vasto espaço de design de arquiteturas potenciais.

Esses genomas permitem processos de otimização iterativa, como recombinação e mutação, permitindo ao STAR sintetizar e refinar arquiteturas personalizadas de acordo com métricas e requisitos de hardware específicos.

Redução de 90% no tamanho do cache em comparação com Transformers de ML tradicionais

O foco inicial da Liquid AI para o STAR tem sido a modelagem de linguagem autorregressiva, uma área onde as arquiteturas tradicionais de Transformer há muito dominam.

Em testes realizados durante sua pesquisa, a equipe de pesquisa da Liquid AI demonstrou a capacidade do STAR de gerar arquiteturas que consistentemente superaram modelos Transformer++ e híbridos altamente otimizados.

Por exemplo, ao otimizar para qualidade e tamanho do cache, as arquiteturas evoluídas pelo STAR alcançaram reduções de tamanho de cache de até 37% em comparação com modelos híbridos e 90% em comparação com Transformers. Apesar dessas melhorias de eficiência, os modelos gerados pelo STAR mantiveram ou superaram o desempenho preditivo de seus concorrentes.

Da mesma forma, quando incumbido de otimizar para qualidade e tamanho do modelo, o STAR reduziu a contagem de parâmetros em até 13% enquanto ainda melhorava o desempenho em benchmarks padrão.

A pesquisa também destacou a capacidade do STAR de escalar seus designs. Um modelo evoluído pelo STAR que escalou de 125 milhões para 1 bilhão de parâmetros entregou resultados comparáveis ou superiores aos existentes modelos Transformer++ e híbridos, tudo isso enquanto reduzia significativamente os requisitos de cache de inferência.

Re-arquitetando a arquitetura do modelo de IA

A Liquid AI declarou que o STAR está fundamentado em uma teoria de design que incorpora princípios de sistemas dinâmicos, processamento de sinais e álgebra linear numérica.

Essa abordagem fundamental permitiu à equipe desenvolver um espaço de busca versátil para unidades computacionais, englobando componentes como mecanismos de atenção, recorrências e convoluções.

Uma das características distintivas do STAR é sua modularidade, que permite ao framework codificar e otimizar arquiteturas em múltiplos níveis hierárquicos. Essa capacidade fornece insights sobre motivos de design recorrentes e permite que os pesquisadores identifiquem combinações eficazes de componentes arquitetônicos.

O que vem a seguir para o STAR?

A capacidade do STAR de sintetizar arquiteturas eficientes e de alto desempenho tem aplicações potenciais muito além da modelagem de linguagem. A Liquid AI prevê que esse framework será usado para enfrentar desafios em várias áreas onde o equilíbrio entre qualidade e eficiência computacional é crítico.

Embora a Liquid AI ainda não tenha divulgado planos específicos para implantação comercial ou preços, os resultados da pesquisa sinalizam um avanço significativo no campo do design automatizado de arquiteturas. Para pesquisadores e desenvolvedores que buscam otimizar sistemas de IA, o STAR pode representar uma ferramenta poderosa para empurrar os limites de desempenho e eficiência dos modelos.

Com sua abordagem de pesquisa aberta, a Liquid AI publicou os detalhes completos do STAR em um artigo revisado por pares, incentivando a colaboração e a inovação adicional. À medida que o cenário da IA continua a evoluir, frameworks como o STAR estão prontos para desempenhar um papel fundamental na formação da próxima geração de sistemas inteligentes. O STAR pode até anunciar o surgimento de um novo boom de arquiteturas pós-Transformer — um presente de fim de ano bem-vindo para a comunidade de pesquisa em machine learning e IA.





    4 × 5 =




    Bolt42