Os chamados modelos de IA de raciocínio estão se tornando mais fáceis — e mais baratos — de desenvolver.
Na sexta-feira, a NovaSky, uma equipe de pesquisadores do Laboratório de Computação em Nuvem da UC Berkeley, lançou o Sky-T1-32B-Preview, um modelo de raciocínio que é competitivo com uma versão anterior do o1 da OpenAI em uma série de benchmarks importantes. O Sky-T1 parece ser o primeiro modelo de raciocínio verdadeiramente open source na medida em que pode ser replicado do zero; a equipe lançou o conjunto de dados utilizado para treiná-lo, além do código de treinamento necessário.
“Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de $450”, escreveu a equipe em um post no blog, “demonstrando que é possível replicar capacidades de raciocínio de alto nível de forma acessível e eficiente.”
$450 pode não parecer tão acessível. Mas não faz muito tempo que o custo para treinar um modelo com desempenho comparável frequentemente variava na casa dos milhões de dólares.
Ao contrário da maioria das IAs, os modelos de raciocínio efetivamente se auto-verificam, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Os modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
A equipe da NovaSky afirma que utilizou outro modelo de raciocínio, o QwQ-32B-Preview da Alibaba, para gerar os dados iniciais de treinamento para o Sky-T1, e então “curou” a mistura de dados e aproveitou o GPT-4o-mini da OpenAI para reestruturar os dados em um formato mais utilizável. Treinar o Sky-T1, com 32 bilhões de parâmetros, levou cerca de 19 horas usando um rack de 8 GPUs Nvidia H100. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo.)
De acordo com a equipe da NovaSky, o Sky-T1 apresenta um desempenho melhor do que uma versão preliminar do o1 no MATH500, uma coleção de desafios matemáticos de “nível de competição”. O modelo também supera a versão preview do o1 em um conjunto de problemas difíceis do LiveCodeBench, uma avaliação de codificação.
No entanto, o Sky-T1 fica aquém da prévia do o1 no GPQA-Diamond, que contém questões relacionadas a física, biologia e química que um graduado de PhD seria esperado conhecer.
É importante notar também que o lançamento GA do o1 pela OpenAI é um modelo mais forte do que a versão preview do o1, e que a OpenAI deve lançar um modelo de raciocínio ainda mais potente, chamado o3, nas próximas semanas.
Mas a equipe da NovaSky afirma que o Sky-T1 representa apenas o começo de sua jornada para desenvolver modelos open source com capacidades avançadas de raciocínio.
“Avançando, iremos nos concentrar em desenvolver modelos mais eficientes que mantenham um forte desempenho em raciocínio e explorar técnicas avançadas que melhorem ainda mais a eficiência e a precisão dos modelos durante os testes”, escreveu a equipe no post. “Fique atento enquanto fazemos progresso nessas iniciativas empolgantes.”
Conteúdo relacionado
Agentes de IA estão redefinindo o comércio digital: Não deixe sua plataforma ser o gargalo
[the_ad id="145565"] Apresentado por commercetools Líderes de comércio digital enfrentam uma pressão imensa. Navegar em um mercado cada vez mais volátil, ao mesmo tempo em…
Flexport lança uma série de ferramentas de IA em uma ação inspirada no “modo fundador”
[the_ad id="145565"] A empresa de transporte e logística Flexport está lançando um conjunto de novos produtos e funcionalidades, muitos dos quais utilizam inteligência…
Modelo Grok 3 da xAI é criticado por bloquear fontes que chamam Musk e Trump de principais disseminadores de desinformação.
[the_ad id="145565"] Participe de nossos boletins informativos diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria.…