Bolt42

Os laboratórios de IA que buscam sistemas superinteligentes estão percebendo que podem precisar fazer uma pausa.

As “leis de escalabilidade da IA”, métodos e expectativas que os laboratórios têm usado para aumentar as capacidades de seus modelos nos últimos cinco anos, estão mostrando sinais de retornos decrescentes, de acordo com vários investidores, fundadores e CEOs de IA que conversaram com o TechCrunch. Seus sentimentos ecoam relatórios recentes que indicam que os modelos nos principais laboratórios de IA estão melhorando mais lentamente do que antes.

Agora, todos parecem estar admitindo que não se pode simplesmente usar mais computação e mais dados durante a pré-treinamento de grandes modelos de linguagem e esperar que eles se transformem em algum tipo de deus digital omnisciente. Pode parecer óbvio, mas essas leis de escalabilidade foram um fator chave no desenvolvimento do ChatGPT, tornando-o melhor, e provavelmente influenciando muitos CEOs a fazer previsões ousadas sobre a AGI chegando em poucos anos.

Ilya Sutskever, co-fundador da OpenAI e da Safe Super Intelligence, disse à Reuters na semana passada que “todos estão procurando a próxima novidade” para escalar seus modelos de IA. No início deste mês, o co-fundador da a16z, Marc Andreessen, disse em um podcast que os modelos de IA atualmente parecem estar convergindo para o mesmo teto de capacidades.

Mas agora, quase imediatamente após o surgimento dessas preocupações, CEOs de IA, pesquisadores e investidores já estão declarando que estamos em uma nova era de leis de escalabilidade. A “computação em tempo de teste”, que oferece aos modelos de IA mais tempo e capacidade para “pensar” antes de responder a uma pergunta, é um concorrente especialmente promissor para ser a próxima grande novidade.

“Estamos vendo o surgimento de uma nova lei de escalabilidade”, disse o CEO da Microsoft, Satya Nadella, no palco do Microsoft Ignite, referindo-se à pesquisa de computação em tempo de teste que apoia o modelo o1 da OpenAI.

Ele não é o único agora apontando o o1 como o futuro.

“Estamos agora na segunda era das leis de escalabilidade, que é a escalabilidade em tempo de teste”, disse Anjney Midha, parceiro da Andreessen Horowitz, que também faz parte do conselho da Mistral e foi um investidor-anjo na Anthropic, em uma entrevista recente ao TechCrunch.

Se o sucesso inesperado — e a súbita desaceleração — das leis anteriores de escalabilidade da IA nos ensina algo, é que é muito difícil prever como e quando os modelos de IA vão melhorar.

De qualquer forma, parece haver uma mudança de paradigma em andamento: as formas como os laboratórios de IA tentam avançar seus modelos nos próximos cinco anos provavelmente não se parecerão com os últimos cinco.

O que são leis de escalabilidade da IA?

As rápidas melhorias nos modelos de IA que a OpenAI, Google, Meta e Anthropic conseguiram desde 2020 podem ser atribuídas em grande parte a uma chave: usar mais computação e mais dados durante a fase de pré-treinamento de um modelo de IA.

Quando os pesquisadores fornecem recursos abundantes aos sistemas de aprendizado de máquina durante essa fase – na qual a IA identifica e armazena padrões em grandes conjuntos de dados – os modelos tendem a ter um desempenho melhor ao prever a próxima palavra ou frase.

Esta primeira geração de leis de escalabilidade da IA ampliou os limites do que os computadores podiam fazer, à medida que os engenheiros aumentaram o número de GPUs usadas e a quantidade de dados que alimentaram. Mesmo que esse método específico tenha chegado ao fim, ele já redesenhou o mapa. Cada grande empresa de tecnologia basicamente apostou tudo em IA, enquanto a Nvidia, que fornece as GPUs com as quais essas empresas treinam seus modelos, agora é a empresa de capital aberto mais valiosa do mundo.

Mas esses investimentos também foram feitos com a expectativa de que a escalabilidade continuaria como esperado.

É importante observar que as leis de escalabilidade não são leis da natureza, da física, da matemática ou do governo. Elas não são garantidas por nada, ou ninguém, para continuar no mesmo ritmo. Mesmo a Lei de Moore, outra famosa lei de escalabilidade, eventualmente se esgotou — embora tenha durado certamente mais tempo.

“Se você apenas colocar mais computação, mais dados, fazer o modelo maior – há retornos decrescentes”, disse Robert Nishihara, co-fundador e ex-CEO da Anyscale, em uma entrevista ao TechCrunch. “Para manter as leis de escalabilidade funcionando, para manter a taxa de progresso aumentando, também precisamos de novas ideias.”

Nishihara está bem familiarizado com as leis de escalabilidade da IA. A Anyscale alcançou uma avaliação de um bilhão de dólares desenvolvendo software que ajuda a OpenAI e outros desenvolvedores de modelos de IA a escalarem suas cargas de trabalho de treinamento de IA para dezenas de milhares de GPUs. A Anyscale tem sido uma das maiores beneficiárias das leis de escalabilidade de pré-treinamento em relação à computação, mas até mesmo seu cofundador reconhece que a estação está mudando.

“Quando você leu um milhão de avaliações no Yelp, talvez as próximas avaliações no Yelp não lhe deem muito”, disse Nishihara, referindo-se às limitações da escalabilidade de dados. “Mas isso é pré-treinamento. A metodologia em torno do pós-treinamento, eu diria, é bastante imatura e tem muito a melhorar.”

Para ser claro, os desenvolvedores de modelos de IA provavelmente continuarão a perseguir clusters de computação maiores e conjuntos de dados maiores para pré-treinamento, e provavelmente há mais melhorias a serem feitas com esses métodos. Elon Musk recentemente terminou de construir um supercomputador com 100.000 GPUs, chamado Colossus, para treinar os próximos modelos da xAI. Haverá mais, e maiores, clusters pela frente.

Mas as tendências sugerem que o crescimento exponencial não é possível apenas através do uso de mais GPUs com as estratégias existentes, então novos métodos estão de repente recebendo mais atenção.

Computação em tempo de teste: a próxima grande aposta da indústria de IA

Quando a OpenAI lançou uma prévia do seu modelo o1, a startup anunciou que fazia parte de uma nova série de modelos separados do GPT.

A OpenAI melhorou seus modelos GPT em grande parte por meio das leis tradicionais de escalabilidade: mais dados, mais potência durante o pré-treinamento. Mas agora esse método aparentemente não está mais trazendo resultados significativos. A estrutura do o1 depende de um novo conceito, a computação em tempo de teste, assim chamada porque os recursos de computação são usados após um prompt, e não antes. A técnica ainda não foi muito explorada no contexto das redes neurais, mas já está mostrando promessas.

Alguns já estão apontando a computação em tempo de teste como o próximo método para escalar sistemas de IA.

“Vários experimentos estão mostrando que, embora as leis de escalabilidade de pré-treinamento possam estar desacelerando, as leis de escalabilidade em tempo de teste — onde você dá ao modelo mais computação na inferência — podem trazer ganhos crescentes em desempenho”, disse Midha, da a16z.

“A nova série ‘o’ da OpenAI leva [a cadeia de pensamento] adiante e requer muitos mais recursos computacionais, e, portanto, energia, para fazê-lo”, disse o renomado pesquisador de IA Yoshua Benjio em um artigo de opinião na terça-feira. “Assim, vemos surgir uma nova forma de escalabilidade computacional. Não apenas mais dados de treinamento e modelos maiores, mas mais tempo gasto ‘pensando’ sobre as respostas.”

Durante um período de 10 a 30 segundos, o modelo o1 da OpenAI se re-prompta várias vezes, dividindo um grande problema em uma série de problemas menores. Apesar de o ChatGPT afirmar que está “pensando”, isso não é o que os humanos fazem — embora nossos métodos internos de resolução de problemas, que se beneficiam da reformulação clara de um problema e soluções passo a passo, tenham sido inspirações-chave para o método.

Há cerca de uma década, Noam Brown, que agora lidera o trabalho da OpenAI no o1, estava tentando construir sistemas de IA que pudessem vencer humanos no pôquer. Durante uma palestra recente, Brown disse que percebeu na época como os jogadores humanos de pôquer levavam tempo para considerar diferentes cenários antes de jogar uma mão. Em 2017, ele introduziu um método que permitia que um modelo “pensasse” por 30 segundos antes de jogar. Durante esse tempo, a IA jogava diferentes sub-jogos, descobrindo como diferentes cenários se desenrolariam para determinar o melhor movimento.

No final, a IA teve um desempenho sete vezes melhor do que suas tentativas anteriores.

É claro que a pesquisa de Brown em 2017 não utilizou redes neurais, que não eram tão populares na época. No entanto, pesquisadores do MIT publicaram um artigo na semana passada mostrando que a computação em tempo de teste melhora significativamente o desempenho de um modelo de IA em tarefas de raciocínio.

Não está imediatamente claro como a computação em tempo de teste escalaria. Isso poderia significar que os sistemas de IA precisam de muito tempo para pensar em perguntas difíceis; talvez horas ou até dias. Outra abordagem poderia ser permitir que um modelo de IA “pensasse” sobre uma pergunta em muitos chips simultaneamente.

Se a computação em tempo de teste realmente decolar como o próximo lugar para escalar sistemas de IA, Midha diz que a demanda por chips de IA que são especializados em inferência de alta velocidade pode aumentar dramaticamente. Isso poderia ser uma boa notícia para startups como Groq ou Cerebras, que se especializam em chips de inferência rápida de IA. Se encontrar a resposta for tão pesado em termos de computação quanto treinar o modelo, os fornecedores de “pico e pá” na IA ganham novamente.

O mundo da IA ainda não está em pânico

A maioria do mundo da IA não parece estar perdendo a calma com a desaceleração dessas antigas leis de escalabilidade. Mesmo que a computação em tempo de teste não prove ser a próxima onda de escalabilidade, alguns sentem que estamos apenas arranhando a superfície das aplicações para os modelos de IA atuais.

Novos produtos populares podem dar aos desenvolvedores de modelos de IA um tempo para descobrir novas maneiras de melhorar os modelos subjacentes.

“Estou completamente convencido de que veremos pelo menos ganhos de 10 a 20 vezes no desempenho do modelo apenas por meio do trabalho em nível de aplicação, apenas permitindo que os modelos se destaquem através de sugestões inteligentes, decisões de UX e passando contexto no momento certo para os modelos”, disse Midha.

Por exemplo, o Modo de Voz Avançado do ChatGPT é uma das aplicações mais impressionantes dos modelos de IA atuais. No entanto, isso foi em grande parte uma inovação na experiência do usuário, não necessariamente na tecnologia subjacente. Você pode ver como mais inovações de UX, como dar a esse recurso acesso à web ou a aplicativos no seu telefone, tornariam o produto ainda melhor.

Kian Katanforoosh, CEO da startup de IA Workera e professor adjunto de deep learning em Stanford, diz ao TechCrunch que as empresas que constroem aplicações de IA, como a sua, não necessariamente precisam de modelos exponencialmente mais inteligentes para construir produtos melhores. Ele também diz que os produtos ao redor dos modelos atuais têm muito espaço para melhorar.

“Vamos supor que você construa aplicações de IA e sua IA tenha alucinações em uma tarefa específica”, disse Katanforoosh. “Existem duas maneiras de evitar isso. Ou o LLM precisa melhorar e vai parar de alucinar, ou as ferramentas ao seu redor precisam melhorar e você terá oportunidades de corrigir o problema.”

Seja qual for o caso para a fronteira da pesquisa em IA, os usuários provavelmente não sentirão os efeitos dessas mudanças por algum tempo. Dito isso, os laboratórios de IA farão o que for necessário para continuar lançando modelos maiores, mais inteligentes e mais rápidos em um ritmo igualmente acelerado. Isso significa que várias empresas de tecnologia líderes podem agora mudar como estão empurrando os limites da IA.


    4 + twenty =

    Bolt42