Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais


Um novo estudo acadêmico desafia uma suposição central no desenvolvimento de modelos de linguagem de grande escala (LLMs), alertando que mais dados de pré-treinamento podem nem sempre levar a modelos melhores.

Pesquisadores de algumas das principais instituições de ciência da computação do Ocidente e do mundo—incluindo a Universidade Carnegie Mellon, a Universidade de Stanford, a Universidade de Harvard e a Universidade de Princeton—introduziram o conceito de “Sobretreinamento Catastrófico.” Eles mostram que um pré-treinamento extenso pode, na verdade, dificultar a adaptação dos modelos de linguagem, degradando sua performance.

O estudo, Modelos de Linguagem Sobretreinados São Mais Difíceis de Ajustar,” está disponível no arXiv e foi liderado por Jacob Mitchell Springer. Seus co-autores são Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig e Aditi Raghunathan.

A lei dos retornos decrescentes

A pesquisa foca em uma tendência surpreendente observada no desenvolvimento de LLMs modernos: enquanto os modelos são pré-treinados em conjuntos de dados cada vez mais amplos—licenciados ou extraídos da web, representados a um LLM como uma série de tokens ou representações numéricas de conceitos e ideias—o aumento no número de tokens durante o pré-treinamento pode levar a uma efetividade reduzida quando esses modelos são posteriormente ajustados para tarefas específicas.

A equipe conduziu uma série de avaliações empíricas e análises teóricas para examinar o efeito do pré-treinamento extenso na adaptabilidade do modelo.

Uma das principais descobertas gira em torno do modelo OLMo-1B de código aberto da AI2.

Os pesquisadores compararam duas versões deste modelo: uma pré-treinada em 2,3 trilhões de tokens e outra em 3 trilhões de tokens.

Apesar do último ter sido treinado com 30% a mais de dados, o modelo mais recente teve um desempenho pior após o ajuste de instruções. Especificamente, o modelo de 3 trilhões de tokens apresentou uma performance mais de 2% inferior em vários benchmarks padrão de modelos de linguagem em comparação com seu parceiro de 2,3 trilhões de tokens. Em algumas avaliações, a degradação no desempenho chegou a 3%.

Os pesquisadores argumentam que essa queda não é um anomalia, mas sim um fenômeno consistente que eles chamam de “Sobretreinamento Catastrófico.”

Compreendendo a sensibilidade e o esquecimento

O artigo atribui essa degradação a um aumento sistemático do que eles chamam de “sensibilidade progressiva.” À medida que os modelos passam por um pré-treinamento extenso, seus parâmetros se tornam mais sensíveis a mudanças.

Essa fragilidade aumentada os torna mais vulneráveis a degradações durante modificações posteriores ao treinamento, como ajuste de instruções, ajuste fino para tarefas multimodais, ou mesmo perturbações simples de peso.

Os pesquisadores fornecem evidências de que, além de um certo ponto no pré-treinamento, qualquer modificação—seja estruturada como ajuste fino ou não estruturada como adição de ruído gaussiano—leva a uma maior perda das capacidades aprendidas anteriormente.

Essa sensibilidade resulta em “esquecimento,” onde as forças originais do modelo deterioram à medida que novos dados de treinamento são introduzidos.

O estudo identifica um “ponto de inflexão” no pré-treinamento, após o qual o treinamento adicional leva a retornos decrescentes e até negativos em relação aos resultados de ajuste fino. Para o modelo OLMo-1B, esse limite surgiu em torno de 2,5 trilhões de tokens.

Uma abundância de evidências

A análise da equipe abrangeu configurações experimentais do mundo real e controladas. Eles testaram o fenômeno em diferentes tarefas, incluindo ajuste de instruções usando conjuntos de dados como Anthropic-HH e TULU, e ajuste fino multimodal usando a estrutura LLaVA.

Os resultados mostraram consistentemente que modelos pré-treinados além de certos orçamentos de tokens apresentaram desempenho inferior após o ajuste fino.

Além disso, os pesquisadores construíram um modelo teórico usando redes lineares para compreender melhor por que o sobretreinamento leva a uma sensibilidade aumentada.

A análise deles confirmou que a sensibilidade progressiva e o sobretreinamento catastrófico são matematicamente inevitáveis quando o pré-treinamento continua indefinidamente sem restrições adequadas.

A principal lição? Fornecedores e treinadores de modelos devem fazer trade-offs

As descobertas desafiam a suposição generalizada de que mais dados de pré-treinamento são sempre melhores. Em vez disso, o artigo sugere um trade-off sutil: enquanto o pré-treinamento mais longo melhora as capacidades do modelo base, também aumenta o risco de que o ajuste fino degrade essas capacidades.

Na prática, as tentativas de mitigar esse efeito—como ajustar as taxas de aprendizado do ajuste fino ou adicionar regularização—podem atrasar o início do sobretreinamento catastrófico, mas não podem eliminá-lo completamente sem sacrificar o desempenho a montante.

Assim, para empresas que buscam aproveitar LLMs para melhorar fluxos de trabalho e resultados de negócios, se uma ideia para fazê-lo é ajustar um modelo de código aberto, a lição desta pesquisa indica que o ajuste de modelos de menor parâmetro treinados com menos material é provavelmente o caminho mais confiável para chegar a um modelo de produção.

Os autores reconhecem que mais pesquisas são necessárias para entender os fatores que influenciam quando e como o sobretreinamento catastrófico ocorre. Questões abertas incluem se o otimizador de pré-treinamento, o objetivo de treinamento ou a distribuição de dados podem impactar a severidade do fenômeno.

Implicações para o desenvolvimento futuro de LLMs e modelos de IA

O estudo tem um impacto significativo sobre como organizações e pesquisadores projetam e treinam modelos de linguagem de grande escala. À medida que o campo continua a buscar modelos maiores e mais capazes, esta pesquisa destaca a importância de equilibrar a duração do pré-treinamento com a adaptabilidade posterior ao treinamento.

Além disso, as descobertas podem influenciar como os desenvolvedores de modelos pensam sobre alocação de recursos. Em vez de se concentrar exclusivamente no aumento dos orçamentos de pré-treinamento, os desenvolvedores podem precisar reavaliar estratégias para otimizar o desempenho a montante sem incorrer nos efeitos negativos do sobretreinamento catastrófico.





    doze + 19 =




    Bolt42