Bolt42

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais


A startup chinesa de IA DeepSeek, conhecida por desafiar os principais fornecedores de IA com tecnologias de código aberto, acaba de lançar uma nova surpresa: um novo LLM de raciocínio aberto chamado DeepSeek-R1.

Baseado no recém-introduzido modelo de mistura de especialistas DeepSeek V3, o DeepSeek-R1 iguala o desempenho do o1, o LLM de raciocínio avançado da OpenAI, em tarefas de matemática, programação e raciocínio. E a melhor parte? Ele faz isso a um custo muito mais atrativo, provando ser 90-95% mais acessível do que o último.

O lançamento marca um grande avanço na arena de código aberto. Ele demonstra que os modelos abertos estão cada vez mais fechando a lacuna em relação aos modelos comerciais fechados na corrida para a inteligência geral artificial (AGI). Para mostrar a força de seu trabalho, a DeepSeek também usou o R1 para destilar seis modelos Llama e Qwen, elevando seu desempenho a novos patamares. Em um caso, a versão destilada do Qwen-1.5B superou modelos muito maiores, GPT-4o e Claude 3.5 Sonnet, em benchmarks de matemática selecionados.

Esses modelos destilados, junto com o R1 principal, foram open-sourced e estão disponíveis no Hugging Face sob uma licença MIT.

O que o DeepSeek-R1 traz à mesa?

O foco está se intensificando na inteligência geral artificial (AGI), um nível de IA que pode realizar tarefas intelectuais como os humanos. Muitas equipes estão se concentrando em aprimorar as capacidades de raciocínio dos modelos. A OpenAI fez a primeira movimentação notável neste campo com seu modelo o1, que utiliza um processo de raciocínio em cadeia para resolver problemas. Através do RL (aprendizado por reforço), o o1 aprende a aprimorar sua cadeia de pensamento e refinar as estratégias que utiliza — aprendendo, em última análise, a reconhecer e corrigir seus erros, ou experimentar novas abordagens quando as atuais não funcionam.

Agora, continuando o trabalho nessa direção, a DeepSeek lançou o DeepSeek-R1, que utiliza uma combinação de RL e ajuste fino supervisionado para lidar com tarefas de raciocínio complexas e igualar o desempenho do o1.

Quando testado, o DeepSeek-R1 obteve 79,8% nos testes de matemática AIME 2024 e 97,3% no MATH-500. Ele também alcançou uma classificação de 2.029 no Codeforces — superando 96,3% dos programadores humanos. Em contraste, o o1-1217 obteve 79,2%, 96,4% e 96,6% respectivamente nesses benchmarks.

Ele também demonstrou forte conhecimento geral, com 90,8% de precisão no MMLU, logo atrás do 91,8% do o1.

Desempenho do DeepSeek-R1 vs OpenAI o1 e o1-mini

O pipeline de treinamento

O desempenho de raciocínio do DeepSeek-R1 marca uma grande vitória para a startup chinesa no espaço de IA dominado pelos EUA, especialmente considerando que todo o trabalho é de código aberto, incluindo como a empresa treinou o modelo.

No entanto, o trabalho não é tão simples quanto parece.

De acordo com o artigo que descreve a pesquisa, o DeepSeek-R1 foi desenvolvido como uma versão aprimorada do DeepSeek-R1-Zero — um modelo inovador treinado exclusivamente por aprendizado por reforço.

https://twitter.com/DrJimFan/status/1881353126210687089

A empresa primeiro usou o DeepSeek-V3-base como modelo base, desenvolvendo suas capacidades de raciocínio sem empregar dados supervisionados, focando essencialmente apenas em sua auto-evolução através de um processo puramente baseado em aprendizagem por reforço. Desenvolvido intrinsecamente a partir do trabalho, essa habilidade garante que o modelo possa resolver tarefas de raciocínio cada vez mais complexas, tirando proveito da computação de teste estendido para explorar e refinar seus processos de pensamento em maior profundidade.

“Durante o treinamento, o DeepSeek-R1-Zero naturalmente surgiu com numerosos comportamentos de raciocínio poderosos e interessantes,” afirmam os pesquisadores no artigo. “Após milhares de passos de RL, o DeepSeek-R1-Zero exibe desempenho superior em benchmarks de raciocínio. Por exemplo, o score pass@1 no AIME 2024 aumenta de 15,6% para 71,0%, e com votação majoritária, a pontuação melhora ainda mais para 86,7%, igualando o desempenho do OpenAI-o1-0912.”

No entanto, apesar de mostrar desempenho aprimorado, incluindo comportamentos como reflexão e exploração de alternativas, o modelo inicial apresentou alguns problemas, como legibilidade deficiente e mistura de idiomas. Para corrigir isso, a empresa se baseou no trabalho realizado para o R1-Zero, utilizando uma abordagem em múltiplas etapas que combina aprendizado supervisionado e aprendizado por reforço, resultando no aprimorado modelo R1.

“Especificamente, começamos coletando milhares de dados de início frio para ajustar o modelo DeepSeek-V3-Base,” explicaram os pesquisadores. “Em seguida, realizamos RL orientado ao raciocínio como o DeepSeek-R1-Zero. Ao nos aproximarmos da convergência no processo de RL, criamos novos dados SFT por meio de amostragem de rejeição no ponto de verificação do RL, combinados com dados supervisionados do DeepSeek-V3 em domínios como escrita, QA factual e autocognição, e então retrainamos o modelo DeepSeek-V3-Base. Após o ajuste fino com os novos dados, o ponto de verificação passa por um processo adicional de RL, levando em conta prompts de todos os cenários. Após essas etapas, obtivemos um ponto de verificação referido como DeepSeek-R1, que atinge desempenho equivalente ao OpenAI-o1-1217.”

Muito mais acessível que o o1

Além do desempenho aprimorado que se iguala ao o1 da OpenAI em benchmarks, o novo DeepSeek-R1 também é muito acessível. Especificamente, onde o OpenAI o1 custa $15 por milhão de tokens de entrada e $60 por milhão de tokens de saída, o DeepSeek Reasoner, que é baseado no modelo R1, custa $0,55 por milhão de tokens de entrada e $2,19 por milhão de tokens de saída.

https://twitter.com/EMostaque/status/1881310721746804810

O modelo pode ser testado como “DeepThink” na plataforma de chat DeepSeek, que é semelhante ao ChatGPT. Usuários interessados podem acessar os pesos do modelo e o repositório de código via Hugging Face, sob uma licença MIT, ou optar pela API para integração direta.





    6 − 5 =




    Bolt42