Bolt42

Participe de nossas newsletters diárias e semanais para atualizações recentes e conteúdo exclusivo sobre coberturas líderes da indústria em IA. Saiba mais


Atualmente, praticamente todos os produtos e modelos de IA de ponta utilizam uma arquitetura de transformer. Modelos de linguagem de grande porte (LLMs), como GPT-4o, LLaMA, Gemini e Claude, são todos baseados em transformers, e outras aplicações de IA, como texto para fala, reconhecimento automático de fala, geração de imagens e modelos de texto para vídeo, têm transformers como sua tecnologia subjacente.

Com a hype em torno da IA não mostrando sinais de desaceleração tão cedo, é hora de dar aos transformers o reconhecimento que merecem. Por isso, gostaria de explicar um pouco sobre como eles funcionam, por que são tão importantes para o crescimento de soluções escaláveis e por que são a espinha dorsal dos LLMs.

Transformers são mais do que parecem

Resumidamente, um transformer é uma arquitetura de rede neural projetada para modelar sequências de dados, tornando-os ideais para tarefas como tradução de idiomas, conclusão de frases, reconhecimento automático de fala e muito mais. Os transformers se tornaram a arquitetura dominante para muitas dessas tarefas de modelagem de sequências porque o mecanismo de atenção subjacente pode ser facilmente paralelizado, permitindo uma escala massiva ao treinar e realizar inferências.

Originalmente introduzido em um artigo de 2017, “A Atenção é Tudo Que Precisamos”, por pesquisadores do Google, o transformer foi proposto como uma arquitetura encoder-decoder especificamente projetada para tradução de idiomas. No ano seguinte, o Google lançou representações de codificadores bidimensionais de transformers (BERT), que poderia ser considerado um dos primeiros LLMs — embora agora seja considerado pequeno pelos padrões de hoje.

Desde então — e especialmente acelerado com o advento dos modelos GPT da OpenAI — a tendência tem sido treinar modelos cada vez maiores com mais dados, mais parâmetros e janelas de contexto mais longas.

Para facilitar essa evolução, muitas inovações surgiram, como: hardware de GPU mais avançado e melhor software para treinamento em múltiplas GPUs; técnicas como quantização e mistura de especialistas (MoE) para reduzir o consumo de memória; novos otimizadores para treinamento, como Shampoo e AdamW; técnicas para computar eficientemente a atenção, como FlashAttention e KV Caching. A tendência provavelmente continuará no futuro próximo.

A importância da autoatenção nos transformers

Dependendo da aplicação, um modelo transformer segue uma arquitetura encoder-decoder. O componente encoder aprende uma representação vetorial dos dados que pode ser usada para tarefas subsequentes, como classificação e análise de sentimentos. O componente decoder pega uma representação vetorial ou latente do texto ou imagem e a utiliza para gerar novo texto, sendo útil para tarefas como conclusão de frases e sumarização. Por essa razão, muitos modelos de ponta, como a família GPT, são apenas decodificadores.

Modelos encoder-decoder combinam ambos os componentes, tornando-os úteis para tradução e outras tarefas de sequência para sequência. Para ambas as arquiteturas encoder e decoder, o componente central é a camada de atenção, pois é isso que permite a um modelo reter contexto de palavras que aparecem muito antes no texto.

A atenção vem em duas variantes: autoatenção e atenção cruzada. A autoatenção é usada para capturar relações entre palavras dentro da mesma sequência, enquanto a atenção cruzada é usada para capturar relações entre palavras em duas sequências diferentes. A atenção cruzada conecta os componentes encoder e decoder em um modelo e durante a tradução. Por exemplo, ela permite que a palavra em inglês “strawberry” se relacione com a palavra em francês “fraise”. Matematicamente, tanto a autoatenção quanto a atenção cruzada são diferentes formas de multiplicação de matrizes, que podem ser feitas de forma extremamente eficiente usando uma GPU.

Graças à camada de atenção, os transformers conseguem captar melhor as relações entre palavras separadas por grandes quantidades de texto, enquanto modelos anteriores, como redes neurais recorrentes (RNN) e modelos de memória de longo e curto prazo (LSTM), perdem o contexto de palavras de textos anteriores.

O futuro dos modelos

Atualmente, os transformers são a arquitetura dominante para muitos casos de uso que exigem LLMs e se beneficiam da maior parte da pesquisa e desenvolvimento. Embora isso não pareça mudar tão cedo, uma classe diferente de modelos que ganhou interesse recentemente são os modelos de espaço de estado (SSMs), como o Mamba. Este algoritmo altamente eficiente pode lidar com sequências de dados muito longas, enquanto os transformers são limitados por uma janela de contexto.

Para mim, as aplicações mais empolgantes dos modelos transformer são os modelos multimodais. O GPT-4o da OpenAI, por exemplo, é capaz de lidar com texto, áudio e imagens — e outros provedores estão começando a seguir esse caminho. As aplicações multimodais são muito diversas, variando de legendagem de vídeo a clonagem de voz e segmentação de imagens (e mais). Elas também oferecem uma oportunidade para tornar a IA mais acessível para pessoas com deficiências. Por exemplo, uma pessoa cega poderia se beneficiar enormemente da capacidade de interagir por meio de componentes de voz e áudio de um aplicativo multimodal.

É um espaço empolgante com muito potencial para descobrir novos casos de uso. Mas, lembre-se de que, pelo menos no futuro próximo, eles são em grande parte sustentados pela arquitetura transformer.

Terrence Alsup é um cientista de dados sênior na Finastra.

DataDecisionMakers

Bem-vindo à comunidade VentureBeat!

DataDecisionMakers é onde especialistas, incluindo pessoas técnicas que fazem trabalho de dados, podem compartilhar insights e inovações relacionadas a dados.

Se você deseja ler sobre ideias inovadoras e informações atualizadas, melhores práticas e o futuro dos dados e tecnologia de dados, junte-se a nós no DataDecisionMakers.

Você pode até considerar contribuir com um artigo seu!

Leia mais do DataDecisionMakers





    1 × 1 =




    Bolt42