Bolt42

Os chamados modelos de IA de raciocínio estão se tornando mais fáceis — e mais baratos — de desenvolver.

Na sexta-feira, a NovaSky, uma equipe de pesquisadores do Laboratório de Computação em Nuvem da UC Berkeley, lançou o Sky-T1-32B-Preview, um modelo de raciocínio que é competitivo com uma versão anterior do o1 da OpenAI em uma série de benchmarks importantes. O Sky-T1 parece ser o primeiro modelo de raciocínio verdadeiramente open source na medida em que pode ser replicado do zero; a equipe lançou o conjunto de dados utilizado para treiná-lo, além do código de treinamento necessário.

“Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de $450”, escreveu a equipe em um post no blog, “demonstrando que é possível replicar capacidades de raciocínio de alto nível de forma acessível e eficiente.”

$450 pode não parecer tão acessível. Mas não faz muito tempo que o custo para treinar um modelo com desempenho comparável frequentemente variava na casa dos milhões de dólares.

Ao contrário da maioria das IAs, os modelos de raciocínio efetivamente se auto-verificam, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Os modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.

A equipe da NovaSky afirma que utilizou outro modelo de raciocínio, o QwQ-32B-Preview da Alibaba, para gerar os dados iniciais de treinamento para o Sky-T1, e então “curou” a mistura de dados e aproveitou o GPT-4o-mini da OpenAI para reestruturar os dados em um formato mais utilizável. Treinar o Sky-T1, com 32 bilhões de parâmetros, levou cerca de 19 horas usando um rack de 8 GPUs Nvidia H100. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo.)

De acordo com a equipe da NovaSky, o Sky-T1 apresenta um desempenho melhor do que uma versão preliminar do o1 no MATH500, uma coleção de desafios matemáticos de “nível de competição”. O modelo também supera a versão preview do o1 em um conjunto de problemas difíceis do LiveCodeBench, uma avaliação de codificação.

No entanto, o Sky-T1 fica aquém da prévia do o1 no GPQA-Diamond, que contém questões relacionadas a física, biologia e química que um graduado de PhD seria esperado conhecer.

É importante notar também que o lançamento GA do o1 pela OpenAI é um modelo mais forte do que a versão preview do o1, e que a OpenAI deve lançar um modelo de raciocínio ainda mais potente, chamado o3, nas próximas semanas.

Mas a equipe da NovaSky afirma que o Sky-T1 representa apenas o começo de sua jornada para desenvolver modelos open source com capacidades avançadas de raciocínio.

“Avançando, iremos nos concentrar em desenvolver modelos mais eficientes que mantenham um forte desempenho em raciocínio e explorar técnicas avançadas que melhorem ainda mais a eficiência e a precisão dos modelos durante os testes”, escreveu a equipe no post. “Fique atento enquanto fazemos progresso nessas iniciativas empolgantes.”


    catorze + sete =

    Bolt42