Os chamados modelos de IA de raciocínio estão se tornando mais fáceis — e mais baratos — de desenvolver.
Na sexta-feira, a NovaSky, uma equipe de pesquisadores do Laboratório de Computação em Nuvem da UC Berkeley, lançou o Sky-T1-32B-Preview, um modelo de raciocínio que é competitivo com uma versão anterior do o1 da OpenAI em uma série de benchmarks importantes. O Sky-T1 parece ser o primeiro modelo de raciocínio verdadeiramente open source na medida em que pode ser replicado do zero; a equipe lançou o conjunto de dados utilizado para treiná-lo, além do código de treinamento necessário.
“Notavelmente, o Sky-T1-32B-Preview foi treinado por menos de $450”, escreveu a equipe em um post no blog, “demonstrando que é possível replicar capacidades de raciocínio de alto nível de forma acessível e eficiente.”
$450 pode não parecer tão acessível. Mas não faz muito tempo que o custo para treinar um modelo com desempenho comparável frequentemente variava na casa dos milhões de dólares.
Ao contrário da maioria das IAs, os modelos de raciocínio efetivamente se auto-verificam, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Os modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
A equipe da NovaSky afirma que utilizou outro modelo de raciocínio, o QwQ-32B-Preview da Alibaba, para gerar os dados iniciais de treinamento para o Sky-T1, e então “curou” a mistura de dados e aproveitou o GPT-4o-mini da OpenAI para reestruturar os dados em um formato mais utilizável. Treinar o Sky-T1, com 32 bilhões de parâmetros, levou cerca de 19 horas usando um rack de 8 GPUs Nvidia H100. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo.)
De acordo com a equipe da NovaSky, o Sky-T1 apresenta um desempenho melhor do que uma versão preliminar do o1 no MATH500, uma coleção de desafios matemáticos de “nível de competição”. O modelo também supera a versão preview do o1 em um conjunto de problemas difíceis do LiveCodeBench, uma avaliação de codificação.
No entanto, o Sky-T1 fica aquém da prévia do o1 no GPQA-Diamond, que contém questões relacionadas a física, biologia e química que um graduado de PhD seria esperado conhecer.
É importante notar também que o lançamento GA do o1 pela OpenAI é um modelo mais forte do que a versão preview do o1, e que a OpenAI deve lançar um modelo de raciocínio ainda mais potente, chamado o3, nas próximas semanas.
Mas a equipe da NovaSky afirma que o Sky-T1 representa apenas o começo de sua jornada para desenvolver modelos open source com capacidades avançadas de raciocínio.
“Avançando, iremos nos concentrar em desenvolver modelos mais eficientes que mantenham um forte desempenho em raciocínio e explorar técnicas avançadas que melhorem ainda mais a eficiência e a precisão dos modelos durante os testes”, escreveu a equipe no post. “Fique atento enquanto fazemos progresso nessas iniciativas empolgantes.”
Conteúdo relacionado
A IA ainda enfrenta problemas de alucinação: Como a MongoDB pretende solucioná-los com reranqueadores avançados e modelos de embedding
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre nossa cobertura de IA de ponta. Saiba Mais…
A Apple se compromete a investir $500 bilhões em manufatura nos EUA, incluindo uma nova instalação de servidores de IA em Houston.
[the_ad id="145565"] O governo dos EUA está pressionando fortemente as empresas de tecnologia para que façam mais compromissos em construir seus negócios no país, e as grandes…
Meta AI chega ao Oriente Médio e à África com suporte para árabe
[the_ad id="145565"] A Meta expandiu formalmente o Meta AI para o Oriente Médio e Norte da África (MENA), tornando o chatbot habilitado por IA acessível a milhões de novas…