Deixe espaço, DeepSeek. Um novo campeão de IA chegou — e é americano.
Na quinta-feira, Ai2, um instituto de pesquisa em IA sem fins lucrativos baseado em Seattle, lançou um modelo que afirma superar o DeepSeek V3, um dos principais sistemas da empresa chinesa DeepSeek.
O modelo da Ai2, chamado Tulu 3 405B, também se destaca em alguns benchmarks de IA em comparação ao GPT-4o da OpenAI, segundo testes internos da Ai2. Além disso, ao contrário do GPT-4o (e até mesmo do DeepSeek V3), o Tulu 3 405B é de código aberto, o que significa que todos os componentes necessários para reproduzi-lo do zero estão disponíveis gratuitamente e licenciados de forma permissiva.
Um porta-voz da Ai2 disse ao TechCrunch que o laboratório acredita que o Tulu 3 405B “reforça o potencial dos EUA para liderar o desenvolvimento global de modelos gerativos de ponta.”
“Este marco é um momento crucial para o futuro da IA aberta, reafirmando a posição dos EUA como líder em modelos competitivos de código aberto,” afirmou o porta-voz. “Com este lançamento, a Ai2 está apresentando uma alternativa poderosa, desenvolvida nos EUA, aos modelos da DeepSeek — marcando um momento decisivo não apenas no desenvolvimento de IA, mas também demonstrando que os EUA podem liderar com IA competitiva e de código aberto, independentemente das gigantes da tecnologia.”
Tulu 3 405B é um modelo bastante grande. Contendo 405 bilhões de parâmetros, ele exigiu 256 GPUs funcionando em paralelo para ser treinado, segundo a Ai2. Parâmetros correspondem vagamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam um desempenho superior aos que têm menos parâmetros.
De acordo com a Ai2, uma das chaves para alcançar um desempenho competitivo com o Tulu 3 405B foi uma técnica chamada aprendizado por reforço com recompensas verificáveis. Aprendizado por reforço com recompensas verificáveis, ou RLVR, treina modelos em tarefas com resultados “verificáveis”, como a resolução de problemas matemáticos e o seguimento de instruções.
A Ai2 afirma que, no benchmark PopQA, um conjunto de 14.000 perguntas especializadas de conhecimento obtidas da Wikipedia, o Tulu 3 405B superou não apenas o DeepSeek V3 e o GPT-4o, mas também o modelo Llama 3.1 405B da Meta. O Tulu 3 405B também teve o melhor desempenho de qualquer modelo em sua classe no GSM8K, um teste contendo problemas de palavras de matemática do nível de ensino fundamental.
O Tulu 3 405B está disponível para teste através do aplicativo de chatbot da Ai2, e o código para treinar o modelo está no GitHub e na plataforma de desenvolvimento de IA Hugging Face. Aproveite enquanto está quente — e antes que o próximo modelo AI líder em benchmarks chegue.
A TechCrunch tem um boletim focado em IA! Inscreva-se aqui para recebê-lo na sua caixa de entrada toda quarta-feira.
Conteúdo relacionado
Ex-líderes do Google e Meta lançam a Palona AI, trazendo agentes de atendimento personalizados e emocionais para empresas não tecnológicas
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de liderança no setor. Saiba…
A Índia elogia o laboratório de IA chinês DeepSeek e planeja hospedar seus modelos em servidores locais.
[the_ad id="145565"] O ministro de TI da Índia elogiou, na quinta-feira, o progresso da DeepSeek e afirmou que o país hospedará os modelos de linguagem de grande porte do…
SuperOps conquista R$ 125 milhões para usar IA e ajudar melhor provedores de serviços gerenciados
[the_ad id="145565"] SuperOps, uma startup indiana que oferece ferramentas para ajudar provedores de serviços de TI e administradores de sistemas internos em empresas, levantou…