Os chamados modelos de IA de raciocínio estão se tornando mais fáceis — e mais baratos — de desenvolver.
Na sexta-feira, a NovaSky, uma equipe de pesquisadores do Laboratório de Computação em Nuvem da UC Berkeley, lançou o Sky-T1-32B-Preview, um modelo de raciocínio que é competitivo com uma versão anterior do o1 da OpenAI em uma série de benchmarks importantes. O Sky-T1 parece ser o primeiro modelo de raciocínio verdadeiramente open source na medida em que pode ser replicado do zero; a equipe lançou o conjunto de dados utilizado para treiná-lo, além do código de treinamento necessário.
“Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de $450”, escreveu a equipe em um post no blog, “demonstrando que é possível replicar capacidades de raciocínio de alto nível de forma acessível e eficiente.”
$450 pode não parecer tão acessível. Mas não faz muito tempo que o custo para treinar um modelo com desempenho comparável frequentemente variava na casa dos milhões de dólares.
Ao contrário da maioria das IAs, os modelos de raciocínio efetivamente se auto-verificam, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Os modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
A equipe da NovaSky afirma que utilizou outro modelo de raciocínio, o QwQ-32B-Preview da Alibaba, para gerar os dados iniciais de treinamento para o Sky-T1, e então “curou” a mistura de dados e aproveitou o GPT-4o-mini da OpenAI para reestruturar os dados em um formato mais utilizável. Treinar o Sky-T1, com 32 bilhões de parâmetros, levou cerca de 19 horas usando um rack de 8 GPUs Nvidia H100. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo.)
De acordo com a equipe da NovaSky, o Sky-T1 apresenta um desempenho melhor do que uma versão preliminar do o1 no MATH500, uma coleção de desafios matemáticos de “nível de competição”. O modelo também supera a versão preview do o1 em um conjunto de problemas difíceis do LiveCodeBench, uma avaliação de codificação.
No entanto, o Sky-T1 fica aquém da prévia do o1 no GPQA-Diamond, que contém questões relacionadas a física, biologia e química que um graduado de PhD seria esperado conhecer.
É importante notar também que o lançamento GA do o1 pela OpenAI é um modelo mais forte do que a versão preview do o1, e que a OpenAI deve lançar um modelo de raciocínio ainda mais potente, chamado o3, nas próximas semanas.
Mas a equipe da NovaSky afirma que o Sky-T1 representa apenas o começo de sua jornada para desenvolver modelos open source com capacidades avançadas de raciocínio.
“Avançando, iremos nos concentrar em desenvolver modelos mais eficientes que mantenham um forte desempenho em raciocínio e explorar técnicas avançadas que melhorem ainda mais a eficiência e a precisão dos modelos durante os testes”, escreveu a equipe no post. “Fique atento enquanto fazemos progresso nessas iniciativas empolgantes.”
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…