A Ai2 afirma que seu novo modelo de IA supera um dos melhores da DeepSeek.

Deixe espaço, DeepSeek. Um novo campeão de IA chegou — e é americano.

Na quinta-feira, Ai2, um instituto de pesquisa em IA sem fins lucrativos baseado em Seattle, lançou um modelo que afirma superar o DeepSeek V3, um dos principais sistemas da empresa chinesa DeepSeek.

O modelo da Ai2, chamado Tulu 3 405B, também se destaca em alguns benchmarks de IA em comparação ao GPT-4o da OpenAI, segundo testes internos da Ai2. Além disso, ao contrário do GPT-4o (e até mesmo do DeepSeek V3), o Tulu 3 405B é de código aberto, o que significa que todos os componentes necessários para reproduzi-lo do zero estão disponíveis gratuitamente e licenciados de forma permissiva.

Um porta-voz da Ai2 disse ao TechCrunch que o laboratório acredita que o Tulu 3 405B “reforça o potencial dos EUA para liderar o desenvolvimento global de modelos gerativos de ponta.”

“Este marco é um momento crucial para o futuro da IA aberta, reafirmando a posição dos EUA como líder em modelos competitivos de código aberto,” afirmou o porta-voz. “Com este lançamento, a Ai2 está apresentando uma alternativa poderosa, desenvolvida nos EUA, aos modelos da DeepSeek — marcando um momento decisivo não apenas no desenvolvimento de IA, mas também demonstrando que os EUA podem liderar com IA competitiva e de código aberto, independentemente das gigantes da tecnologia.”

Tulu 3 405B é um modelo bastante grande. Contendo 405 bilhões de parâmetros, ele exigiu 256 GPUs funcionando em paralelo para ser treinado, segundo a Ai2. Parâmetros correspondem vagamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam um desempenho superior aos que têm menos parâmetros.

Ai2 Tulu3-405B — A Ai2 testou o Tulu3 405B em benchmarks populares.Créditos da Imagem:Ai2

De acordo com a Ai2, uma das chaves para alcançar um desempenho competitivo com o Tulu 3 405B foi uma técnica chamada aprendizado por reforço com recompensas verificáveis. Aprendizado por reforço com recompensas verificáveis, ou RLVR, treina modelos em tarefas com resultados “verificáveis”, como a resolução de problemas matemáticos e o seguimento de instruções.

A Ai2 afirma que, no benchmark PopQA, um conjunto de 14.000 perguntas especializadas de conhecimento obtidas da Wikipedia, o Tulu 3 405B superou não apenas o DeepSeek V3 e o GPT-4o, mas também o modelo Llama 3.1 405B da Meta. O Tulu 3 405B também teve o melhor desempenho de qualquer modelo em sua classe no GSM8K, um teste contendo problemas de palavras de matemática do nível de ensino fundamental.

O Tulu 3 405B está disponível para teste através do aplicativo de chatbot da Ai2, e o código para treinar o modelo está no GitHub e na plataforma de desenvolvimento de IA Hugging Face. Aproveite enquanto está quente — e antes que o próximo modelo AI líder em benchmarks chegue.

A TechCrunch tem um boletim focado em IA! Inscreva-se aqui para recebê-lo na sua caixa de entrada toda quarta-feira.