Bolt42

Pesquisadores de IA da Universidade de Stanford e da Universidade de Washington conseguiram treinar um modelo de “raciocínio” de IA por menos de $50 em créditos de computação em nuvem, de acordo com um novo artigo de pesquisa divulgado na última sexta-feira.

O modelo, conhecido como s1, apresenta desempenho semelhante aos modelos de raciocínio de ponta, como o o1 da OpenAI e o R1 da DeepSeek, em testes que medem habilidades em matemática e programação. O modelo s1 está disponível no GitHub, juntamente com os dados e o código usados para treiná-lo.

A equipe por trás do s1 afirmou que começou com um modelo base padrão e, em seguida, o ajustou por meio da destilação, um processo para extrair as capacidades de “raciocínio” de outro modelo de IA treinando com suas respostas.

Os pesquisadores disseram que o s1 é destilado de um dos modelos de raciocínio do Google, o Gemini 2.0 Flash Thinking Experimental. A destilação é a mesma abordagem que pesquisadores de Berkeley usaram para criar um modelo de raciocínio de IA por cerca de $450 no mês passado.

Para alguns, a ideia de que alguns pesquisadores, sem milhões de dólares a seu favor, possam ainda inovar no espaço da IA é empolgante. Mas o s1 levanta questões reais sobre a comoditização dos modelos de IA.

Onde está o diferencial se alguém pode replicar de perto um modelo de vários milhões de dólares com uma quantia relativamente pequena?

Sem surpresa, grandes laboratórios de IA não estão felizes. A OpenAI acusou a DeepSeek de coletar dados de forma indevida de sua API para fins de destilação de modelo.

Os pesquisadores por trás do s1 buscavam encontrar a abordagem mais simples para alcançar um forte desempenho em raciocínio e “escalonamento em tempo de teste”, ou permitindo que um modelo de IA pense mais antes de responder a uma pergunta. Esses foram alguns dos avanços no modelo o1 da OpenAI, que a DeepSeek e outros laboratórios de IA tentaram replicar através de várias técnicas.

O artigo do s1 sugere que modelos de raciocínio podem ser destilados com um conjunto de dados relativamente pequeno usando um processo chamado fine-tuning supervisionado (SFT), no qual um modelo de IA é explicitamente instruído a imitar certos comportamentos em um conjunto de dados.

O SFT tende a ser mais barato do que o método de aprendizado por reforço em grande escala que a DeepSeek empregou para treinar seu concorrente ao modelo o1 da OpenAI, o R1.

O Google oferece acesso gratuito ao Gemini 2.0 Flash Thinking Experimental, embora com limites diários, através de sua plataforma Google AI Studio.

No entanto, os termos do Google proíbem a engenharia reversa de seus modelos para desenvolver serviços que concorram com as ofertas de IA da própria empresa. Entramos em contato com o Google para comentar.

O S1 é baseado em um pequeno modelo de IA padrão do laboratório de IA Qwen, de propriedade da Alibaba, que está disponível para download gratuito. Para treinar o s1, os pesquisadores criaram um conjunto de dados de apenas 1.000 perguntas cuidadosamente selecionadas, emparelhadas com respostas a essas perguntas, além do processo de “pensamento” por trás de cada resposta do Google Gemini 2.0 Flash Thinking Experimental.

Após o treinamento do s1, que levou menos de 30 minutos utilizando 16 GPUs Nvidia H100, o s1 obteve um desempenho forte em certos benchmarks de IA, de acordo com os pesquisadores. Niklas Muennighoff, um pesquisador de Stanford que trabalhou no projeto, disse ao TechCrunch que poderia alugar o poder de computação necessário hoje por cerca de $20.

Os pesquisadores usaram um truque inteligente para fazer com que o s1 verificasse seu trabalho e aumentasse seu tempo de “pensamento”: Disseram a ele para esperar. Adicionar a palavra “esperar” durante o raciocínio do s1 ajudou o modelo a chegar a respostas um pouco mais precisas, segundo o artigo.

Em 2025, a Meta, Google e Microsoft planejam investir centenas de bilhões de dólares em infraestrutura de IA, que será parcialmente direcionada ao treinamento de modelos de IA de próxima geração.

Esse nível de investimento pode ainda ser necessário para impulsionar a inovação em IA. A destilação mostrou ser um bom método para recriar de maneira econômica as capacidades de um modelo de IA, mas não cria novos modelos de IA que sejam significativamente melhores do que os disponíveis atualmente.


    dezessete + 4 =

    Bolt42