O modelo de raciocínio AI R1 atualizado da DeepSeek pode estar recebendo a maior parte da atenção da comunidade de IA esta semana. Mas o laboratório de IA chinês também lançou uma versão menor e “destilada” de seu novo R1, o DeepSeek-R1-0528-Qwen3-8B, que a DeepSeek afirma superar modelos de tamanho comparável em certos benchmarks.
O R1 menor, que foi construído com base no modelo Qwen3-8B lançado pela Alibaba em maio, apresenta um desempenho melhor do que o Gemini 2.5 Flash do Google em AIME 2025, uma coleção desafiadora de questões matemáticas.
O DeepSeek-R1-0528-Qwen3-8B também se iguala quase ao modelo Phi 4 de raciocínio plus recentemente lançado pela Microsoft em outro teste de habilidades matemáticas, o HMMT.
Modelos chamados destilados, como o DeepSeek-R1-0528-Qwen3-8B, geralmente são menos capazes do que suas contrapartes de tamanho completo. Por outro lado, eles demandam muito menos recursos computacionais. De acordo com a plataforma de nuvem NodeShift, o Qwen3-8B requer uma GPU com 40GB-80GB de RAM para operar (por exemplo, uma Nvidia H100). O R1 de tamanho completo exige cerca de uma dúzia de GPUs de 80GB.
A DeepSeek treinou o DeepSeek-R1-0528-Qwen3-8B pegando texturas geradas pelo R1 atualizado e usando-as para aprimorar o Qwen3-8B. Em uma página dedicada ao modelo na plataforma de desenvolvimento de IA Hugging Face, a DeepSeek descreve o DeepSeek-R1-0528-Qwen3-8B como “para pesquisa acadêmica em modelos de raciocínio e desenvolvimento industrial focado em modelos de pequena escala.”
O DeepSeek-R1-0528-Qwen3-8B está disponível sob uma licença permissiva MIT, significando que pode ser usado comercialmente sem restrições. Vários serviços, incluindo LM Studio, já oferecem o modelo através de uma API.
Conteúdo relacionado
FLUX.1 Kontext permite a geração de imagens em contexto para pipelines de IA empresarial.
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais…
Elon se afasta do DOGE e o Vale do Silício entra na fase de ‘descoberta’
[the_ad id="145565"] Elon Musk anunciou oficialmente que está se afastando como um funcionário especial do governo dos EUA e o chefe de fato do Departamento de Eficiência…
Startup de IA com voz emotiva Hume lança novo modelo EVI 3 com criação rápida de vozes personalizadas.
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre coberturas líderes da indústria em IA. Saiba…