Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura da IA de ponta. Saiba mais


À medida que rumores e relatórios surgem sobre a dificuldade que as principais empresas de IA enfrentam para desenvolver modelos de linguagem de grande escala (LLMs) mais novos e poderosos, a atenção está cada vez mais se voltando para arquiteturas alternativas ao “Transformer” — a tecnologia que sustenta a maior parte da atual explosão de IA generativa, introduzida por pesquisadores do Google no seminal artigo de 2017 “Atenção é Tudo o Que Você Precisa.

Como descrito naquele artigo e posteriormente, um transformer é uma arquitetura de rede neural de aprendizado profundo que processa dados sequenciais, como texto ou informações de séries temporais.

Agora, a startup Liquid AI, originada no MIT, apresentou o STAR (Síntese de Arquiteturas Personalizadas), uma estrutura inovadora projetada para automatizar a geração e otimização de arquiteturas de modelos de IA.

A estrutura STAR utiliza algoritmos evolutivos e um sistema de codificação numérica para abordar o complexo desafio de equilibrar qualidade e eficiência em modelos de aprendizado profundo.

Segundo a equipe de pesquisa da Liquid AI, que inclui Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli e Michael Poli, a abordagem do STAR representa uma mudança em relação aos métodos tradicionais de design de arquitetura.

Em vez de depender da afinação manual ou de modelos pré-definidos, o STAR utiliza uma técnica de codificação hierárquica — referida como “genomas STAR” — para explorar um vasto espaço de design de arquiteturas potenciais.

Esses genomas permitem processos de otimização iterativa, como recombinação e mutação, permitindo que o STAR sintetize e refine arquiteturas adaptadas a métricas específicas e requisitos de hardware.

Redução de 90% no tamanho do cache em comparação com Transformers ML tradicionais

O foco inicial da Liquid AI para o STAR foi na modelagem de linguagem autoregressiva, uma área onde as arquiteturas tradicionais de Transformer foram dominantes por muito tempo.

Em testes realizados durante sua pesquisa, a equipe de pesquisa da Liquid AI demonstrou a capacidade do STAR de gerar arquiteturas que consistentemente superavam modelos Transformer++ e híbridos altamente otimizados.

Por exemplo, ao otimizar pela qualidade e tamanho do cache, as arquiteturas evoluídas pelo STAR conseguiram reduções de tamanho de cache de até 37% em comparação com modelos híbridos e 90% em comparação com Transformers. Apesar dessas melhorias de eficiência, os modelos gerados pelo STAR mantiveram ou superaram o desempenho preditivo de seus equivalentes.

Da mesma forma, ao ser encarregado de otimizar pela qualidade e tamanho do modelo, o STAR reduziu o número de parâmetros em até 13% enquanto ainda melhorava o desempenho em benchmarks padrão.

A pesquisa também destacou a capacidade do STAR de escalar seus designs. Um modelo evoluído pelo STAR que saiu de 125 milhões para 1 bilhão de parâmetros apresentou resultados comparáveis ou superiores aos modelos Transformer++ e híbridos existentes, tudo isso enquanto reduzia significativamente os requisitos de cache de inferência.

Re-arquitetando a arquitetura de modelos de IA

A Liquid AI afirmou que o STAR está fundamentado em uma teoria de design que incorpora princípios de sistemas dinâmicos, processamento de sinais e álgebra linear numérica.

Essa abordagem fundamental permitiu que a equipe desenvolvesse um espaço de busca versátil para unidades computacionais, abrangendo componentes como mecanismos de atenção, recorrências e convoluções.

Uma das características distintivas do STAR é sua modularidade, permitindo que a estrutura codifique e otimize arquiteturas em múltiplos níveis hierárquicos. Essa capacidade oferece insights sobre motivos de design recorrentes e permite que os pesquisadores identifiquem combinações eficazes de componentes arquitetônicos.

Quais são os próximos passos para o STAR?

A capacidade do STAR de sintetizar arquiteturas eficientes e de alto desempenho tem aplicações potenciais muito além da modelagem de linguagem. A Liquid AI imagina que essa estrutura seja utilizada para enfrentar desafios em vários domínios onde o equilíbrio entre qualidade e eficiência computacional é crítico.

Embora a Liquid AI ainda não tenha divulgado planos específicos para implantação comercial ou precificação, os achados da pesquisa sinalizam um avanço significativo no campo do design automatizado de arquitetura. Para pesquisadores e desenvolvedores que buscam otimizar sistemas de IA, o STAR pode representar uma ferramenta poderosa para ultrapassar os limites de desempenho e eficiência dos modelos.

Com sua abordagem de pesquisa aberta, a Liquid AI publicou os detalhes completos do STAR em um artigo revisado por pares, incentivando a colaboração e a inovação contínua. À medida que o cenário de IA continua a evoluir, estruturas como o STAR estão prontas para desempenhar um papel fundamental na formação da próxima geração de sistemas inteligentes. O STAR pode até anunciar o nascimento de um novo boom arquitetônico pós-Transformer — um presente de férias bem-vindo para a comunidade de pesquisa em aprendizado de máquina e IA.





    dez + treze =




    Bolt42