Uma técnica popular para tornar a IA mais eficiente possui desvantagens.

Uma das técnicas mais amplamente utilizadas para tornar os modelos de IA mais eficientes, a quantização, tem limites — e a indústria pode estar rapidamente se aproximando deles.

No contexto da IA, a quantização refere-se à redução do número de bits — as menores unidades que um computador pode processar — necessárias para representar informações. Considere esta analogia: quando alguém pergunta as horas, você provavelmente diria “meio-dia” — e não “doze horas, um segundo e quatro milissegundos.” Isso é quantizar; ambas as respostas estão corretas, mas uma é ligeiramente mais precisa. A quantidade de precisão que você realmente precisa depende do contexto.

Os modelos de IA consistem em vários componentes que podem ser quantizados — em particular, parâmetros, as variáveis internas que os modelos usam para fazer previsões ou decisões. Isso é conveniente, considerando que os modelos realizam milhões de cálculos quando estão em funcionamento. Modelos quantizados com menos bits representando seus parâmetros exigem menos esforço matemático e, portanto, computacional. (Para deixar claro, isso é um processo diferente de “destilação”, que é uma poda mais envolvente e seletiva de parâmetros.)

Mas a quantização pode ter mais trade-offs do que anteriormente se supunha.

O modelo em constante redução

De acordo com um estudo de pesquisadores de Harvard, Stanford, MIT, Databricks e Carnegie Mellon, modelos quantizados apresentam desempenho inferior se a versão original, não quantizada do modelo foi treinada por um longo período em muitos dados. Em outras palavras, em um certo ponto, pode ser melhor apenas treinar um modelo menor em vez de reduzir um grande.

Isso pode significar más notícias para as empresas de IA que treinam modelos extremamente grandes (conhecidos por melhorar a qualidade das respostas) e, em seguida, os quantizam na tentativa de torná-los menos custosos de operar.

Os efeitos já estão se manifestando. Alguns meses atrás, desenvolvedores e acadêmicos relataram que quantizar o modelo Llama 3 da Meta tende a ser “mais prejudicial” em comparação com outros modelos, possivelmente devido à forma como foi treinado.

“Na minha opinião, o custo número um para todos em IA é e continuará sendo a inferência, e nosso trabalho mostra que uma maneira importante de reduzi-lo não funcionará para sempre”, disse Tanishq Kumar, estudante de matemática em Harvard e autor principal do artigo, à TechCrunch.

Contrariamente à crença popular, a inferência de modelos de IA — rodar um modelo, como quando o ChatGPT responde a uma pergunta — é frequentemente mais cara em termos agregados do que o treinamento do modelo. Considere, por exemplo, que o Google gastou aproximadamente $191 milhões para treinar um de seus modelos principais Gemini — certamente uma quantia expressiva. Mas se a empresa usasse um modelo para gerar respostas de 50 palavras para metade de todas as consultas de busca do Google, gastaria cerca de $6 bilhões por ano.

Grandes laboratórios de IA adotaram o treinamento de modelos em conjuntos de dados massivos sob a suposição de que “escalar” — aumentar a quantidade de dados e computação usados no treinamento — levaria a IA a ser cada vez mais capaz.

Por exemplo, a Meta treinou o Llama 3 em um conjunto de 15 trilhões de tokens. (Tokens representam pedaços de dados brutos; 1 milhão de tokens é igual a cerca de 750.000 palavras.) A geração anterior, Llama 2, foi treinada em “apenas” 2 trilhões de tokens.

Evidências sugerem que a escalabilidade eventualmente proporciona retornos decrescentes; a Anthropic e o Google reportaram recentemente que treinaram enormes modelos que não atenderam às expectativas internas de referência. Mas há pouco sinal de que a indústria esteja pronta para se afastar de tais abordagens de escalabilidade.

Quão preciso, exatamente?

Então, se os laboratórios são relutantes em treinar modelos em conjuntos de dados menores, existe uma maneira de tornar os modelos menos suscetíveis à degradação? Possivelmente. Kumar diz que ele e os co-autores descobriram que treinar modelos em “baixa precisão” pode torná-los mais robustos. Acompanhe-nos por um momento enquanto mergulhamos um pouco mais fundo.

“Precisão” aqui se refere ao número de dígitos que um tipo de dado numérico pode representar com precisão. Tipos de dados são coleções de valores de dados, geralmente especificadas por um conjunto de valores possíveis e operações permitidas; o tipo de dado FP8, por exemplo, usa apenas 8 bits para representar um número de ponto flutuante.

A maioria dos modelos atualmente é treinada em 16 bits ou “meia precisão” e “quantizada após o treinamento” para uma precisão de 8 bits. Certos componentes do modelo (por exemplo, seus parâmetros) são convertidos para um formato de menor precisão em detrimento de alguma precisão. Pense nisso como fazer cálculos a algumas casas decimais, mas, em seguida, arredondar para o décimo mais próximo, muitas vezes oferecendo o melhor dos dois mundos.

Fornecedores de hardware como a Nvidia estão defendendo a baixa precisão para a inferência de modelos quantizados. O novo chip Blackwell da empresa suporta precisão de 4 bits, especificamente um tipo de dado chamado FP4; a Nvidia argumenta que isso é uma vantagem para data centers com restrições de memória e energia.

Mas uma quantização extremamente baixa pode não ser desejável. De acordo com Kumar, a menos que o modelo original seja incrivelmente grande em termos de contagem de parâmetros, precisões inferiores a 7 ou 8 bits podem mostrar uma queda notável na qualidade.

Se tudo isso parece um pouco técnico, não se preocupe — realmente é. Mas a mensagem principal é simplesmente que os modelos de IA não são totalmente compreendidos, e os atalhos conhecidos que funcionam em muitos tipos de computação não funcionam aqui. Você não diria “meio-dia” se alguém perguntasse quando começaram uma corrida de 100 metros, certo? Não é tão óbvio assim, é claro, mas a ideia é a mesma:

“O ponto chave do nosso trabalho é que existem limitações que você não pode contornar ingenuamente”, concluiu Kumar. “Esperamos que nosso trabalho adicione nuances à discussão que muitas vezes busca cada vez mais baixas precisões padrão para treinamento e inferência.”

Kumar reconhece que ele e seus colegas realizaram seu estudo em uma escala relativamente pequena — eles planejam testá-lo com mais modelos no futuro. Mas ele acredita que pelo menos uma percepção irá se manter: Não existe almoço grátis quando se trata de reduzir custos de inferência.

“A precisão dos bits importa, e não é gratuita”, disse. “Você não pode reduzi-la indefinidamente sem que os modelos sofram. Os modelos têm capacidade finita, então, em vez de tentar encaixar um quatrilhão de tokens em um modelo pequeno, na minha opinião, muito mais esforço será feito para a curadoria e filtragem meticulosas dos dados, para que apenas os dados de mais alta qualidade sejam inseridos em modelos menores. Estou otimista de que novas arquiteturas que visam deliberadamente tornar o treinamento de baixa precisão estável serão importantes no futuro.”