Quanto os LLMs realmente memorizam? Agora sabemos, graças à Meta, Google, Nvidia e Cornell.

Participe do evento confiável por líderes de empresas há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira estratégia de IA empresarial. Saiba mais

A maioria das pessoas interessadas em IA generativa provavelmente já sabe que os Modelos de Linguagem de Grande Escala (LLMs) — como os que alimentam o ChatGPT, o Claude da Anthropic e o Gemini do Google — são treinados em conjuntos de dados massivos: trilhões de palavras extraídas de sites, livros, códigos e, cada vez mais, de outros meios, como imagens, áudio e vídeo. Mas por quê?

Com esses dados, os LLMs desenvolvem uma compreensão estatística e generalizada da linguagem, seus padrões e do mundo — codificada na forma de bilhões de parâmetros, ou “configurações”, em uma rede de neurônios artificiais (que são funções matemáticas que transformam dados de entrada em sinais de saída).

Ao serem expostos a todos esses dados de treinamento, os LLMs aprendem a detectar e generalizar padrões que se refletem nos parâmetros de seus neurônios. Por exemplo, a palavra “maçã” muitas vezes aparece próxima a termos relacionados a alimentos, frutas ou árvores, e às vezes computadores. O modelo aprende que maçãs podem ser vermelhas, verdes ou amarelas, ou mesmo de outras cores se estiverem podres ou raras, que são escritas “m-a-ç-ã” em português, e são comestíveis. Esse conhecimento estatístico influencia como o modelo responde quando um usuário insere um comando — moldando a saída que gera com base nas associações que “aprendeu” dos dados de treinamento.

Mas uma grande questão — mesmo entre pesquisadores de IA — permanece: quanto dos dados de treinamento de um LLM é usado para construir representações generalizadas de conceitos e quanto é, em vez disso, memorizado palavra por palavra ou armazenado de uma maneira que é idêntica ou quase idêntica aos dados originais?

Isso é importante não apenas para compreender melhor como os LLMs operam — e quando eles falham — mas também para que provedores de modelos se defendam em processos por violação de direitos autorais movidos por criadores e proprietários de dados, como artistas e gravadoras. Se for demonstrado que os LLMs reproduzem porções significativas de seus dados de treinamento palavra por palavra, os tribunais podem ser mais propensos a apoiar os réus que alegam que os modelos copiaram material protegido. Se não — se os modelos forem considerados capazes de gerar saídas com base em padrões generalizados em vez de uma replicação exata — os desenvolvedores poderão continuar a coletar e treinar com dados protegidos por direitos autorais sob defesas legais existentes, como o uso justo.

Agora, finalmente temos uma resposta para a pergunta sobre quanto os LLMs memorizam em comparação com a generalização: um novo estudo publicado esta semana por pesquisadores da Meta, Google DeepMind, Universidade Cornell e NVIDIA descobre que Modelos do estilo GPT têm uma capacidade de memorização fixa de aproximadamente 3,6 bits por parâmetro.

Para entender o que 3,6 bits significa na prática:

Um único bit é a menor unidade de dado digital, representando um 0 ou um 1. Oito bits compõem um byte.
Armazenar 3,6 bits permite aproximadamente 12,13 valores distintos, conforme calculado por 2^3.6.
Isso é aproximadamente a quantidade de informação necessária para escolher uma de 12 opções — semelhante a selecionar um mês do ano ou o resultado de um lançamento de um dado de 12 lados.
Isso não é suficiente para armazenar até mesmo uma letra do alfabeto inglês (que precisa de cerca de 4,7 bits), mas é o suficiente para codificar um caractere de um conjunto reduzido de 10 letras comuns em inglês (que requer cerca de 3,32 bits).
Em bytes, 3,6 bits são 0,45 bytes — menos da metade do tamanho de um caractere típico armazenado em ASCII (que usa 8 bits ou 1 byte).

Esse número é independente do modelo dentro de variações arquitetônicas razoáveis: diferentes profundidades, larguras e precisões produzem resultados semelhantes. A estimativa se manteve constante entre tamanhos de modelo e até mesmo níveis de precisão, com modelos de precisão total atingindo valores ligeiramente superiores (até 3,83 bits/parâmetro).

Mais dados de treinamento NÃO levam a mais memorização — na verdade, um modelo será menos provável de memorizar qualquer ponto de dado individual

Uma conclusão chave da pesquisa é que os modelos não memorizam mais quando treinados com mais dados. Em vez disso, a capacidade fixa de um modelo é distribuída entre o conjunto de dados, significando que cada ponto de dado individual recebe menos atenção.

Jack Morris, o autor principal, explicou via a rede social X que “treinar com mais dados forçará os modelos a memorizar menos por amostra.”

Essas descobertas podem ajudar a aliviar preocupações sobre grandes modelos memorizando conteúdo protegido por direitos autorais ou sensível.

Se a memorização é limitada e diluída entre muitos exemplos, a probabilidade de reproduzir qualquer exemplo específico de treinamento diminui. Em essência, mais dados de treinamento levam a um comportamento de generalização mais seguro, não a um risco aumentado.

Como os pesquisadores identificaram essas descobertas

Para quantificar precisamente quanto os modelos de linguagem memorizam, os pesquisadores utilizaram uma abordagem não convencional, mas poderosa: treinaram modelos de transformadores em conjuntos de dados compostos por bitstrings aleatórias uniformemente. Cada um desses bitstrings foi amostrado de forma independente, garantindo que não houvesse padrões, estrutura ou redundância entre os exemplos.

Como cada amostra é única e desprovida de características compartilhadas, qualquer habilidade que o modelo mostre em reconstruir ou identificar esses strings durante a avaliação reflete diretamente quanto informação ele reteve — ou memorizou — durante o treinamento.

A razão chave para esse arranjo foi eliminar completamente a possibilidade de generalização. Ao contrário da linguagem natural — que é cheia de estrutura gramatical, sobreposição semântica e conceitos repetidos — dados aleatórios uniformes não contêm tais informações. Cada exemplo é essencialmente ruído, sem relação estatística com outros. Nesse cenário, qualquer desempenho do modelo nos dados de teste deve vir unicamente da memorização dos exemplos de treinamento, uma vez que não há um padrão de distribuição do qual generalizar.

Os autores argumentam que seu método é talvez uma das únicas maneiras fundamentadas de desvincular memorização de aprendizagem na prática, porque quando LLMs são treinados em linguagem real, mesmo ao produzir uma saída que corresponde aos dados de treinamento, é difícil saber se memorizaram a entrada ou simplesmente inferiram a estrutura subjacente a partir dos padrões que observaram.

Esse método permite que os pesquisadores mapeiem uma relação direta entre o número de parâmetros do modelo e a quantidade total de informação armazenada. Ao aumentar gradualmente o tamanho do modelo e treinar cada variante até a saturação, através de centenas de experimentos em modelos que variam de 500K a 1,5 bilhões de parâmetros, observaram resultados consistentes: 3,6 bits memorizados por parâmetro, que reportam como uma medida fundamental da capacidade de memória dos LLMs.

A equipe aplicou sua metodologia a modelos treinados em conjuntos de dados do mundo real também. Quando treinados com texto, os modelos exibiram um equilíbrio de memorização e generalização.

Conjuntos de dados menores incentivaram mais memorização, mas à medida que o tamanho do conjunto de dados aumentou, os modelos mudaram para aprender padrões generalizáveis. Essa transição foi marcada por um fenômeno conhecido como “queda dupla”, onde o desempenho temporariamente diminui antes de melhorar uma vez que a generalização se estabelece.

O estudo também examinou como a precisão do modelo — comparando o treinamento em bfloat16 versus float32 — afeta a capacidade de memorização. Eles observaram um modesto aumento de 3,51 para 3,83 bits por parâmetro ao mudar para a precisão total de 32 bits. No entanto, esse ganho é muito menor do que o dobro de bits disponíveis sugeriria, implicando retornos decrescentes de maior precisão.

Dados únicos são mais suscetíveis à memorização

O artigo propõe uma lei de escalonamento que relaciona a capacidade de um modelo e o tamanho do conjunto de dados à eficácia de ataques de inferência de associação.

Esses ataques tentam determinar se um ponto específico de dado fez parte do conjunto de treinamento de um modelo. A pesquisa mostra que tais ataques se tornam pouco confiáveis à medida que o tamanho do conjunto de dados cresce, apoiando o argumento de que o treinamento em grande escala ajuda a reduzir o risco de privacidade.

Enquanto o artigo foca no comportamento médio, alguns pesquisadores apontaram que certos tipos de dados — como escrita altamente única ou estilizada — podem ainda ser mais suscetíveis à memorização.

Os autores reconhecem essa limitação e enfatizam que seu método é projetado para caracterizar tendências gerais, em vez de casos extremos.

Avançando em direção a uma compreensão humana maior da compreensão dos LLMs

Ao introduzir uma definição fundamentada e quantificável de memorização, o estudo oferece aos desenvolvedores e pesquisadores novas ferramentas para avaliar o comportamento dos modelos de linguagem. Isso ajuda não apenas com a transparência do modelo, mas também com a conformidade, privacidade e padrões éticos no desenvolvimento de IA. As descobertas sugerem que mais dados — e não menos — podem ser o caminho mais seguro ao treinar modelos de linguagem em grande escala.

Para colocar a memorização total do modelo em perspectiva:

Um modelo de 500K parâmetros pode memorizar cerca de 1,8 milhões de bits, ou 225 KB de dados.

Um modelo de 1,5 bilhões de parâmetros pode manter cerca de 5,4 bilhões de bits, ou 675 megabytes de informação bruta.

Isso não é comparável ao armazenamento de arquivos típico, como imagens (por exemplo, uma imagem descompactada de 3,6 MB é cerca de 30 milhões de bits), mas é significativo quando distribuído entre padrões textuais discretos.

Não sou advogado nem especialista legal, mas eu esperaria que tal pesquisa seja citada nos numerosos processos em andamento entre provedores de IA e criadores/proprietários de dados.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos a você a notícia sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.

Favor digite a resposta em dígitos:

2 × quatro =

Claude Gemini Google IA Negócios

Conteúdo relacionado

BusinessInteligência artificial

Google afirma que a prévia do Gemini 2.5 Pro supera o DeepSeek R1 e o Grok 3 Beta em desempenho de programação.
[the_ad id="145565"] Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira…

BusinessInteligência artificial

AMD contrata os funcionários por trás da Untether AI
[the_ad id="145565"] A AMD continua sua onda de aquisições. A gigante de semicondutores AMD adquiriu a equipe por trás da Untether AI, uma startup que desenvolve chips de…

BusinessInteligência artificial

Chefe de marketing da OpenAI se afasta para tratar câncer de mama.
[the_ad id="145565"] A chefe de marketing da OpenAI, Kate Rouch, anunciou que estará se afastando de sua função por três meses enquanto passa por tratamento para câncer de mama…