A nova arquitetura do modelo STAR da Liquid AI supera os Transformers

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura da IA de ponta. Saiba mais

À medida que rumores e relatórios surgem sobre a dificuldade que as principais empresas de IA enfrentam para desenvolver modelos de linguagem de grande escala (LLMs) mais novos e poderosos, a atenção está cada vez mais se voltando para arquiteturas alternativas ao “Transformer” — a tecnologia que sustenta a maior parte da atual explosão de IA generativa, introduzida por pesquisadores do Google no seminal artigo de 2017 “Atenção é Tudo o Que Você Precisa.“

Como descrito naquele artigo e posteriormente, um transformer é uma arquitetura de rede neural de aprendizado profundo que processa dados sequenciais, como texto ou informações de séries temporais.

Agora, a startup Liquid AI, originada no MIT, apresentou o STAR (Síntese de Arquiteturas Personalizadas), uma estrutura inovadora projetada para automatizar a geração e otimização de arquiteturas de modelos de IA.

A estrutura STAR utiliza algoritmos evolutivos e um sistema de codificação numérica para abordar o complexo desafio de equilibrar qualidade e eficiência em modelos de aprendizado profundo.

Segundo a equipe de pesquisa da Liquid AI, que inclui Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli e Michael Poli, a abordagem do STAR representa uma mudança em relação aos métodos tradicionais de design de arquitetura.

Em vez de depender da afinação manual ou de modelos pré-definidos, o STAR utiliza uma técnica de codificação hierárquica — referida como “genomas STAR” — para explorar um vasto espaço de design de arquiteturas potenciais.

Esses genomas permitem processos de otimização iterativa, como recombinação e mutação, permitindo que o STAR sintetize e refine arquiteturas adaptadas a métricas específicas e requisitos de hardware.

Redução de 90% no tamanho do cache em comparação com Transformers ML tradicionais

O foco inicial da Liquid AI para o STAR foi na modelagem de linguagem autoregressiva, uma área onde as arquiteturas tradicionais de Transformer foram dominantes por muito tempo.

Em testes realizados durante sua pesquisa, a equipe de pesquisa da Liquid AI demonstrou a capacidade do STAR de gerar arquiteturas que consistentemente superavam modelos Transformer++ e híbridos altamente otimizados.

Por exemplo, ao otimizar pela qualidade e tamanho do cache, as arquiteturas evoluídas pelo STAR conseguiram reduções de tamanho de cache de até 37% em comparação com modelos híbridos e 90% em comparação com Transformers. Apesar dessas melhorias de eficiência, os modelos gerados pelo STAR mantiveram ou superaram o desempenho preditivo de seus equivalentes.

Da mesma forma, ao ser encarregado de otimizar pela qualidade e tamanho do modelo, o STAR reduziu o número de parâmetros em até 13% enquanto ainda melhorava o desempenho em benchmarks padrão.

A pesquisa também destacou a capacidade do STAR de escalar seus designs. Um modelo evoluído pelo STAR que saiu de 125 milhões para 1 bilhão de parâmetros apresentou resultados comparáveis ou superiores aos modelos Transformer++ e híbridos existentes, tudo isso enquanto reduzia significativamente os requisitos de cache de inferência.

Re-arquitetando a arquitetura de modelos de IA

A Liquid AI afirmou que o STAR está fundamentado em uma teoria de design que incorpora princípios de sistemas dinâmicos, processamento de sinais e álgebra linear numérica.

Essa abordagem fundamental permitiu que a equipe desenvolvesse um espaço de busca versátil para unidades computacionais, abrangendo componentes como mecanismos de atenção, recorrências e convoluções.

Uma das características distintivas do STAR é sua modularidade, permitindo que a estrutura codifique e otimize arquiteturas em múltiplos níveis hierárquicos. Essa capacidade oferece insights sobre motivos de design recorrentes e permite que os pesquisadores identifiquem combinações eficazes de componentes arquitetônicos.

Quais são os próximos passos para o STAR?

A capacidade do STAR de sintetizar arquiteturas eficientes e de alto desempenho tem aplicações potenciais muito além da modelagem de linguagem. A Liquid AI imagina que essa estrutura seja utilizada para enfrentar desafios em vários domínios onde o equilíbrio entre qualidade e eficiência computacional é crítico.

Embora a Liquid AI ainda não tenha divulgado planos específicos para implantação comercial ou precificação, os achados da pesquisa sinalizam um avanço significativo no campo do design automatizado de arquitetura. Para pesquisadores e desenvolvedores que buscam otimizar sistemas de IA, o STAR pode representar uma ferramenta poderosa para ultrapassar os limites de desempenho e eficiência dos modelos.

Com sua abordagem de pesquisa aberta, a Liquid AI publicou os detalhes completos do STAR em um artigo revisado por pares, incentivando a colaboração e a inovação contínua. À medida que o cenário de IA continua a evoluir, estruturas como o STAR estão prontas para desempenhar um papel fundamental na formação da próxima geração de sistemas inteligentes. O STAR pode até anunciar o nascimento de um novo boom arquitetônico pós-Transformer — um presente de férias bem-vindo para a comunidade de pesquisa em aprendizado de máquina e IA.

VB Diário

Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.