Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA da indústria. Saiba mais
À medida que rumores e relatórios circulam sobre as dificuldades enfrentadas pelas principais empresas de IA em desenvolver modelos de linguagem de grande porte (LLMs) mais novos e poderosos, o foco está cada vez mais se deslocando para arquiteturas alternativas ao “Transformer” — a tecnologia que sustenta a maior parte do atual boom da IA generativa, introduzida por pesquisadores do Google no seminal artigo de 2017 “Attention Is All You Need.“
Conforme descrito nesse artigo e em diante, um Transformer é uma arquitetura de rede neural de deep learning que processa dados sequenciais, como texto ou informações de séries temporais.
Agora, a startup Liquid AI, nascida no MIT, lançou o STAR (Synthesis of Tailored Architectures), um framework inovador projetado para automatizar a geração e otimização de arquiteturas de modelos de IA.
O framework STAR utiliza algoritmos evolucionários e um sistema de codificação numérica para abordar o complexo desafio de equilibrar qualidade e eficiência em modelos de deep learning.
De acordo com a equipe de pesquisa da Liquid AI, que inclui Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli e Michael Poli, a abordagem do STAR representa uma mudança em relação aos métodos tradicionais de design de arquitetura.
Em vez de confiar na sintonia manual ou templates pré-definidos, o STAR utiliza uma técnica de codificação hierárquica — referida como “genomas STAR” — para explorar um vasto espaço de design de arquiteturas potenciais.
Esses genomas permitem processos de otimização iterativa, como recombinação e mutação, permitindo ao STAR sintetizar e refinar arquiteturas personalizadas de acordo com métricas e requisitos de hardware específicos.
Redução de 90% no tamanho do cache em comparação com Transformers de ML tradicionais
O foco inicial da Liquid AI para o STAR tem sido a modelagem de linguagem autorregressiva, uma área onde as arquiteturas tradicionais de Transformer há muito dominam.
Em testes realizados durante sua pesquisa, a equipe de pesquisa da Liquid AI demonstrou a capacidade do STAR de gerar arquiteturas que consistentemente superaram modelos Transformer++ e híbridos altamente otimizados.
Por exemplo, ao otimizar para qualidade e tamanho do cache, as arquiteturas evoluídas pelo STAR alcançaram reduções de tamanho de cache de até 37% em comparação com modelos híbridos e 90% em comparação com Transformers. Apesar dessas melhorias de eficiência, os modelos gerados pelo STAR mantiveram ou superaram o desempenho preditivo de seus concorrentes.
Da mesma forma, quando incumbido de otimizar para qualidade e tamanho do modelo, o STAR reduziu a contagem de parâmetros em até 13% enquanto ainda melhorava o desempenho em benchmarks padrão.
A pesquisa também destacou a capacidade do STAR de escalar seus designs. Um modelo evoluído pelo STAR que escalou de 125 milhões para 1 bilhão de parâmetros entregou resultados comparáveis ou superiores aos existentes modelos Transformer++ e híbridos, tudo isso enquanto reduzia significativamente os requisitos de cache de inferência.
Re-arquitetando a arquitetura do modelo de IA
A Liquid AI declarou que o STAR está fundamentado em uma teoria de design que incorpora princípios de sistemas dinâmicos, processamento de sinais e álgebra linear numérica.
Essa abordagem fundamental permitiu à equipe desenvolver um espaço de busca versátil para unidades computacionais, englobando componentes como mecanismos de atenção, recorrências e convoluções.
Uma das características distintivas do STAR é sua modularidade, que permite ao framework codificar e otimizar arquiteturas em múltiplos níveis hierárquicos. Essa capacidade fornece insights sobre motivos de design recorrentes e permite que os pesquisadores identifiquem combinações eficazes de componentes arquitetônicos.
O que vem a seguir para o STAR?
A capacidade do STAR de sintetizar arquiteturas eficientes e de alto desempenho tem aplicações potenciais muito além da modelagem de linguagem. A Liquid AI prevê que esse framework será usado para enfrentar desafios em várias áreas onde o equilíbrio entre qualidade e eficiência computacional é crítico.
Embora a Liquid AI ainda não tenha divulgado planos específicos para implantação comercial ou preços, os resultados da pesquisa sinalizam um avanço significativo no campo do design automatizado de arquiteturas. Para pesquisadores e desenvolvedores que buscam otimizar sistemas de IA, o STAR pode representar uma ferramenta poderosa para empurrar os limites de desempenho e eficiência dos modelos.
Com sua abordagem de pesquisa aberta, a Liquid AI publicou os detalhes completos do STAR em um artigo revisado por pares, incentivando a colaboração e a inovação adicional. À medida que o cenário da IA continua a evoluir, frameworks como o STAR estão prontos para desempenhar um papel fundamental na formação da próxima geração de sistemas inteligentes. O STAR pode até anunciar o surgimento de um novo boom de arquiteturas pós-Transformer — um presente de fim de ano bem-vindo para a comunidade de pesquisa em machine learning e IA.
VB Daily
Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente
Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
SuperOps conquista R$ 125 milhões para usar IA e ajudar melhor provedores de serviços gerenciados
[the_ad id="145565"] SuperOps, uma startup indiana que oferece ferramentas para ajudar provedores de serviços de TI e administradores de sistemas internos em empresas, levantou…
A plataforma de música gratuita da Riffusion pode ser o Spotify do futuro
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para obter as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais…
A startup de análise de dados Athenic AI quer ser o sistema nervoso central da empresa.
[the_ad id="145565"] Jared Zhao se interessou por análise de dados durante sua passagem pela UC Berkeley, atraído pela capacidade de transformar dados brutos em histórias. Zhao…