DeepSeek-R1 de código aberto utiliza aprendizado por reforço puro para competir com o OpenAI o1

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais

A startup chinesa de IA DeepSeek, conhecida por desafiar os principais fornecedores de IA com tecnologias de código aberto, acaba de lançar uma nova surpresa: um novo LLM de raciocínio aberto chamado DeepSeek-R1.

Baseado no recém-introduzido modelo de mistura de especialistas DeepSeek V3, o DeepSeek-R1 iguala o desempenho do o1, o LLM de raciocínio avançado da OpenAI, em tarefas de matemática, programação e raciocínio. E a melhor parte? Ele faz isso a um custo muito mais atrativo, provando ser 90-95% mais acessível do que o último.

O lançamento marca um grande avanço na arena de código aberto. Ele demonstra que os modelos abertos estão cada vez mais fechando a lacuna em relação aos modelos comerciais fechados na corrida para a inteligência geral artificial (AGI). Para mostrar a força de seu trabalho, a DeepSeek também usou o R1 para destilar seis modelos Llama e Qwen, elevando seu desempenho a novos patamares. Em um caso, a versão destilada do Qwen-1.5B superou modelos muito maiores, GPT-4o e Claude 3.5 Sonnet, em benchmarks de matemática selecionados.

Esses modelos destilados, junto com o R1 principal, foram open-sourced e estão disponíveis no Hugging Face sob uma licença MIT.

O que o DeepSeek-R1 traz à mesa?

O foco está se intensificando na inteligência geral artificial (AGI), um nível de IA que pode realizar tarefas intelectuais como os humanos. Muitas equipes estão se concentrando em aprimorar as capacidades de raciocínio dos modelos. A OpenAI fez a primeira movimentação notável neste campo com seu modelo o1, que utiliza um processo de raciocínio em cadeia para resolver problemas. Através do RL (aprendizado por reforço), o o1 aprende a aprimorar sua cadeia de pensamento e refinar as estratégias que utiliza — aprendendo, em última análise, a reconhecer e corrigir seus erros, ou experimentar novas abordagens quando as atuais não funcionam.

Agora, continuando o trabalho nessa direção, a DeepSeek lançou o DeepSeek-R1, que utiliza uma combinação de RL e ajuste fino supervisionado para lidar com tarefas de raciocínio complexas e igualar o desempenho do o1.

Quando testado, o DeepSeek-R1 obteve 79,8% nos testes de matemática AIME 2024 e 97,3% no MATH-500. Ele também alcançou uma classificação de 2.029 no Codeforces — superando 96,3% dos programadores humanos. Em contraste, o o1-1217 obteve 79,2%, 96,4% e 96,6% respectivamente nesses benchmarks.

Ele também demonstrou forte conhecimento geral, com 90,8% de precisão no MMLU, logo atrás do 91,8% do o1.

Desempenho do DeepSeek-R1 vs OpenAI o1 e o1-mini

O pipeline de treinamento

O desempenho de raciocínio do DeepSeek-R1 marca uma grande vitória para a startup chinesa no espaço de IA dominado pelos EUA, especialmente considerando que todo o trabalho é de código aberto, incluindo como a empresa treinou o modelo.

No entanto, o trabalho não é tão simples quanto parece.

De acordo com o artigo que descreve a pesquisa, o DeepSeek-R1 foi desenvolvido como uma versão aprimorada do DeepSeek-R1-Zero — um modelo inovador treinado exclusivamente por aprendizado por reforço.

https://twitter.com/DrJimFan/status/1881353126210687089

A empresa primeiro usou o DeepSeek-V3-base como modelo base, desenvolvendo suas capacidades de raciocínio sem empregar dados supervisionados, focando essencialmente apenas em sua auto-evolução através de um processo puramente baseado em aprendizagem por reforço. Desenvolvido intrinsecamente a partir do trabalho, essa habilidade garante que o modelo possa resolver tarefas de raciocínio cada vez mais complexas, tirando proveito da computação de teste estendido para explorar e refinar seus processos de pensamento em maior profundidade.

“Durante o treinamento, o DeepSeek-R1-Zero naturalmente surgiu com numerosos comportamentos de raciocínio poderosos e interessantes,” afirmam os pesquisadores no artigo. “Após milhares de passos de RL, o DeepSeek-R1-Zero exibe desempenho superior em benchmarks de raciocínio. Por exemplo, o score pass@1 no AIME 2024 aumenta de 15,6% para 71,0%, e com votação majoritária, a pontuação melhora ainda mais para 86,7%, igualando o desempenho do OpenAI-o1-0912.”

No entanto, apesar de mostrar desempenho aprimorado, incluindo comportamentos como reflexão e exploração de alternativas, o modelo inicial apresentou alguns problemas, como legibilidade deficiente e mistura de idiomas. Para corrigir isso, a empresa se baseou no trabalho realizado para o R1-Zero, utilizando uma abordagem em múltiplas etapas que combina aprendizado supervisionado e aprendizado por reforço, resultando no aprimorado modelo R1.

“Especificamente, começamos coletando milhares de dados de início frio para ajustar o modelo DeepSeek-V3-Base,” explicaram os pesquisadores. “Em seguida, realizamos RL orientado ao raciocínio como o DeepSeek-R1-Zero. Ao nos aproximarmos da convergência no processo de RL, criamos novos dados SFT por meio de amostragem de rejeição no ponto de verificação do RL, combinados com dados supervisionados do DeepSeek-V3 em domínios como escrita, QA factual e autocognição, e então retrainamos o modelo DeepSeek-V3-Base. Após o ajuste fino com os novos dados, o ponto de verificação passa por um processo adicional de RL, levando em conta prompts de todos os cenários. Após essas etapas, obtivemos um ponto de verificação referido como DeepSeek-R1, que atinge desempenho equivalente ao OpenAI-o1-1217.”

Muito mais acessível que o o1

Além do desempenho aprimorado que se iguala ao o1 da OpenAI em benchmarks, o novo DeepSeek-R1 também é muito acessível. Especificamente, onde o OpenAI o1 custa $15 por milhão de tokens de entrada e $60 por milhão de tokens de saída, o DeepSeek Reasoner, que é baseado no modelo R1, custa $0,55 por milhão de tokens de entrada e $2,19 por milhão de tokens de saída.

https://twitter.com/EMostaque/status/1881310721746804810

O modelo pode ser testado como “DeepThink” na plataforma de chat DeepSeek, que é semelhante ao ChatGPT. Usuários interessados podem acessar os pesos do modelo e o repositório de código via Hugging Face, sob uma licença MIT, ou optar pela API para integração direta.

Insights diários sobre casos de uso empresarial com VB Daily

Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós fornecemos informações internas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights que maximizem o ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…

BusinessInteligência artificial

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…

Inteligência artificial

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE

[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…

DeepSeek-R1 de código aberto utiliza aprendizado por reforço puro para competir com o OpenAI o1 — com 95% menos custo