Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre reportagens de IA líderes da indústria. Saiba mais
Janeiro de 2025 abalou o cenário da IA. Os aparentemente imbatíveis OpenAI e os poderosos gigantes da tecnologia americana ficaram surpresos com o que podemos chamar de um azarão na área de modelos de linguagem de grande escala (LLMs). A DeepSeek, uma empresa chinesa fora do radar, desafiou repentinamente a OpenAI. Não é que o DeepSeek-R1 fosse melhor do que os modelos de topo dos gigantes americanos; ele estava um pouco atrás nos benchmarks, mas fez todos pensarem sobre a eficiência em termos de uso de hardware e energia.
Dada a indisponibilidade do melhor hardware de alto desempenho, parece que a DeepSeek se motivou a inovar na área de eficiência, algo de menor preocupação para os players maiores. A OpenAI alegou ter evidências sugerindo que a DeepSeek pode ter usado seu modelo para treinamento, mas não temos provas concretas que sustentem isso. Assim, se é verdade ou se a OpenAI está apenas tentando acalmar seus investidores é um tema de debate. No entanto, a DeepSeek publicou seu trabalho, e as pessoas verificaram que os resultados são reproduzíveis, pelo menos em uma escala muito menor.
Mas como a DeepSeek conseguiu tais economias de custo enquanto as empresas americanas não puderam? A resposta curta é simples: elas tinham mais motivação. A resposta longa requer uma explicação técnica um pouco mais elaborada.
A DeepSeek usou otimização do cache KV
Uma importante economia de custo para a memória GPU foi a otimização do cache de Chave-Valor usado em cada camada de atenção em um LLM.
Os LLMs são compostos de blocos de transformadores, cada um dos quais compreende uma camada de atenção seguida de uma rede feed-forward convencional. O conceito da rede feed-forward modela relações arbitrárias, mas na prática, é difícil para ela sempre determinar padrões nos dados. A camada de atenção resolve esse problema para a modelagem de linguagem.
O modelo processa textos usando tokens, mas para simplicidade, referiremos a eles como palavras. Em um LLM, cada palavra recebe um vetor em alta dimensão (digamos, mil dimensões). Conceitualmente, cada dimensão representa um conceito, como ser quente ou frio, ser verde, ser macio, ser um substantivo. A representação vetorial de uma palavra é seu significado e valores de acordo com cada dimensão.
No entanto, nossa linguagem permite que outras palavras modifiquem o significado de cada palavra. Por exemplo, uma maçã tem um significado. Mas podemos ter uma maçã verde como uma versão modificada. Um exemplo mais extremo de modificação seria que uma maçã no contexto de um iPhone difere de uma maçã em um contexto de prado. Como permitimos que nosso sistema modifique o significado vetorial de uma palavra com base em outra palavra? É aqui que entra a atenção.
O modelo de atenção atribui dois outros vetores a cada palavra: uma chave e uma consulta. A consulta representa as qualidades do significado de uma palavra que podem ser modificadas, e a chave representa o tipo de modificações que pode fornecer a outras palavras. Por exemplo, a palavra ‘verde’ pode fornecer informações sobre cor e verdecência. Assim, a chave da palavra ‘verde’ terá um alto valor na dimensão de ‘verdecência’. Por outro lado, a palavra ‘maçã’ pode ser verde ou não, então o vetor de consulta de ‘maçã’ também teria um alto valor para a dimensão de verdecência. Se tomarmos o produto escalar da chave de ‘verde’ com a consulta de ‘maçã’, o produto deve ser relativamente grande em comparação com o produto da chave de ‘mesa’ e da consulta de ‘maçã’. A camada de atenção então adiciona uma pequena fração do valor da palavra ‘verde’ ao valor da palavra ‘maçã’. Dessa forma, o valor da palavra ‘maçã’ é modificado para ser um pouco mais verde.
Quando o LLM gera texto, ele faz isso palavra por palavra. Quando ele gera uma palavra, todas as palavras previamente geradas tornam-se parte de seu contexto. No entanto, as chaves e os valores dessas palavras já foram computados. Quando outra palavra é adicionada ao contexto, seu valor precisa ser atualizado com base em sua consulta e nas chaves e valores de todas as palavras anteriores. É por isso que todos esses valores são armazenados na memória GPU. Esse é o cache KV.
A DeepSeek determinou que a chave e o valor de uma palavra estão relacionados. Assim, o significado da palavra verde e sua capacidade de afetar a verdecência estão obviamente muito relacionados. Portanto, é possível comprimir ambos como um único vetor (e talvez menor) e descompactá-lo durante o processamento muito facilmente. A DeepSeek descobriu que isso afeta seu desempenho em benchmarks, mas economiza muita memória GPU.
A DeepSeek aplicou MoE
A natureza de uma rede neural é que toda a rede precisa ser avaliada (ou computada) para cada consulta. No entanto, nem todo esse cálculo é útil. O conhecimento do mundo está nos pesos ou parâmetros de uma rede. O conhecimento sobre a Torre Eiffel não é útil para responder a perguntas sobre a história de tribos sul-americanas. Saber que uma maçã é uma fruta não é útil ao responder perguntas sobre a teoria geral da relatividade. No entanto, quando a rede é computada, todas as partes da rede são processadas, independentemente. Isso gera altos custos de computação durante a geração de texto que deveriam ser evitados. É aqui que entra a ideia do mixture-of-experts (MoE).
Em um modelo MoE, a rede neural é dividida em várias redes menores chamadas especialistas. Note que o ‘especialista’ na matéria não é explicitamente definido; a rede descobre isso durante o treinamento. No entanto, as redes atribuem algum score de relevância a cada consulta e ativam apenas as partes com scores de correspondência mais altos. Isso proporciona enormes economias de custo em computação. Note que algumas perguntas precisam de expertise em várias áreas para serem respondidas corretamente, e o desempenho de tais consultas será degradado. No entanto, como as áreas são definidas a partir dos dados, o número dessas perguntas é minimizado.
A importância da aprendizagem por reforço
Um LLM é ensinado a pensar através de um modelo de cadeia de pensamento, com o modelo ajustado para imitar o pensamento antes de entregar a resposta. O modelo é solicitado a verbalizar seu pensamento (gerar o pensamento antes de gerar a resposta). O modelo é então avaliado tanto pelo pensamento quanto pela resposta, e treinado com aprendizado por reforço (recompensado por uma correspondência correta e penalizado por uma correspondência incorreta com os dados de treinamento).
Isso requer dados de treinamento caros com o token de pensamento. A DeepSeek apenas pediu ao sistema para gerar os pensamentos entre as tags
A DeepSeek emprega várias outras truques de otimização adicionais. No entanto, eles são altamente técnicos, então não me aprofundarei neles aqui.
Considerações finais sobre a DeepSeek e o mercado maior
Em toda pesquisa tecnológica, primeiro precisamos ver o que é possível antes de melhorar a eficiência. Essa é uma progressão natural. A contribuição da DeepSeek para o cenário de LLM é fenomenal. A contribuição acadêmica não pode ser ignorada, independentemente de terem sido treinados usando a saída da OpenAI. Isso também pode transformar a maneira como as startups operam. Mas não há razão para a OpenAI ou os outros gigantes americanos se desesperarem. É assim que a pesquisa funciona — um grupo se beneficia da pesquisa dos outros grupos. A DeepSeek certamente se beneficiou das pesquisas anteriores realizadas pela Google, OpenAI e inúmeros outros pesquisadores.
No entanto, a ideia de que a OpenAI dominará o mundo dos LLMs indefinidamente agora é muito improvável. Nenhuma quantidade de lobby regulatório ou apontar dedos preservará seu monopólio. A tecnologia já está nas mãos de muitos e em aberto, fazendo seu progresso incontrolável. Embora isso possa ser um pouco incômodo para os investidores da OpenAI, no final, é uma vitória para todos nós. Enquanto o futuro pertence a muitos, sempre seremos gratos a contribuintes iniciais como Google e OpenAI.
Debasish Ray Chawdhuri é engenheiro principal sênior na Talentica Software.
Perspectivas diárias sobre casos de uso comercial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Oferecemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A RAG torna os LLMs menos seguros? Pesquisa da Bloomberg revela perigos ocultos.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba Mais……
Hugging Face lança braço robótico impresso em 3D a partir de R$100
[the_ad id="145565"] A Hugging Face, a startup mais conhecida pela plataforma de IA de mesmo nome, está vendendo um braço robótico programável e imprimível em 3D que pode pegar…
Economize R$ 210 + 50% de desconto no segundo ingresso para Sessions: AI até 4 de maio
[the_ad id="145565"] O centro da inovação em IA está aqui — não perca os últimos 7 dias de economia com os ingressos antecipados! A IA está remodelando o mundo e o TechCrunch…