Bolt42

Participe de nossos boletins informativos diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba Mais


Há apenas uma semana — em 20 de janeiro de 2025 — a startup chinesa de IA DeepSeek lançou um novo modelo de IA de código aberto chamado R1, que poderia inicialmente ser confundido com uma das massas cada vez maiores de concorrentes quase intercambiáveis que surgiram desde que a OpenAI apresentou o ChatGPT (inicialmente impulsionado pelo seu próprio modelo GPT-3.5) há mais de dois anos.

Mas isso rapidamente se provou infundado, já que o aplicativo móvel da DeepSeek rapidamente subiu no ranking da App Store da Apple nos EUA, destronando o ChatGPT do primeiro lugar e causou uma correção massiva do mercado, à medida que os investidores venderam ações de antigos fabricantes de chips de computador, como a Nvidia, cujas unidades de processamento gráfico (GPUs) têm sido muito demandadas para o uso em superclusters massivos para treinar novos modelos de IA e disponibilizá-los para os clientes continuamente (uma modalidade conhecida como “inference”).

O capitalista de risco Marc Andreessen, ecoando sentimentos de outros trabalhadores de tecnologia, escreveu na rede social X na noite passada: “DeepSeek R1 é o momento Sputnik da IA”, comparando-o ao lançamento em outubro de 1957 do primeiro satélite artificial da história, o Sputnik 1, pela União Soviética, que iniciou a “corrida espacial” entre aquele país e os EUA para dominar as viagens espaciais.

O lançamento do Sputnik galvanizou os EUA a investir pesadamente em pesquisa e desenvolvimento de espaçonaves e foguetes. Embora não seja uma analogia perfeita — o investimento pesado não foi necessário para criar o DeepSeek-R1, muito pelo contrário (mais sobre isso abaixo) — parece sinalizar um ponto de virada importante no mercado global de IA, uma vez que pela primeira vez, um produto de IA da China se tornou o mais popular do mundo.

Mas antes de nos empolgarmos com o trem da hype da DeepSeek, vamos dar um passo atrás e examinar a realidade. Como alguém que usou extensivamente o ChatGPT da OpenAI — tanto na plataforma web quanto na móvel — e acompanhou de perto os avanços da IA, acredito que, embora as conquistas do DeepSeek-R1 sejam notáveis, ainda não é hora de descartar o ChatGPT ou os investimentos em IA dos EUA. E, por favor, note que não estou sendo pago pela OpenAI para dizer isso — nunca recebi dinheiro da empresa e não pretendo receber.

O que o DeepSeek-R1 faz bem

O DeepSeek-R1 faz parte de uma nova geração de grandes modelos de “raciocínio” que fazem mais do que responder a consultas de usuários: eles refletem sobre sua própria análise enquanto produzem uma resposta, tentando detectar erros antes de apresentá-los ao usuário.

E o DeepSeek-R1 iguala ou supera o próprio modelo de raciocínio da OpenAI, o o1, lançado em setembro de 2024 inicialmente apenas para usuários de assinatura do ChatGPT Plus e Pro, em diversas áreas.

Por exemplo, no benchmark MATH-500, que avalia a resolução de problemas matemáticos de nível médio, o DeepSeek-R1 alcançou uma taxa de precisão de 97,3%, superando ligeiramente os 96,4% do modelo OpenAI o1. Em termos de capacidades de codificação, o DeepSeek-R1 obteve 49,2% no benchmark SWE-bench Verified, superando os 48,9% do OpenAI o1.

Além disso, financeiramente, o DeepSeek-R1 oferece economias de custos substanciais. O modelo foi desenvolvido com um investimento de menos de $6 milhões, uma fração do custo — estimado em múltiplos bilhões — associado ao treinamento de modelos como o o1 da OpenAI.

A DeepSeek foi essencialmente forçada a se tornar mais eficiente com GPUs antigas e escassas devido a uma restrição de exportação dos EUA sobre a venda da tecnologia para a China. Além disso, a DeepSeek oferece acesso à API a $0,14 por milhão de tokens, reduzindo significativamente a taxa da OpenAI de $7,50 por milhão de tokens.

O ganho massivo de eficiência do DeepSeek-R1, economia de custos e desempenho equivalente ao principal modelo de IA dos EUA causaram um alvoroço no Vale do Silício e na comunidade empresarial mais ampla sobre o que parece ser uma completa reviravolta no mercado de IA, na geopolítica e na economia conhecida do treinamento de modelos de IA.

Embora os ganhos da DeepSeek sejam revolucionários, o pêndulo está balançando muito para ela agora

Não há como negar que a relação custo-benefício do DeepSeek-R1 é uma conquista significativa. Mas não vamos esquecer que a própria DeepSeek deve muito de seu sucesso às inovações em IA dos EUA, que remontam à arquitetura do transformador inicial desenvolvida por pesquisadores da Google AI em 2017 (que deu início à febre de LLM).

O DeepSeek-R1 foi treinado com dados sintéticos de perguntas e respostas e, especificamente, de acordo com o artigo divulgado por seus pesquisadores, em um “conjunto de dados de supervisão ajustado” do “DeepSeek-V3”, o modelo anterior (que não é de raciocínio) da empresa, que foi encontrado com muitos indicadores de ter sido gerado com o próprio modelo GPT-4o da OpenAI!

Parece bastante claro afirmar que, sem o GPT-4o para fornecer esses dados, e sem o próprio lançamento pela OpenAI do primeiro modelo comercial de raciocínio, o o1, em setembro de 2024, que criou a categoria, o DeepSeek-R1 quase certamente não existiria.

Além disso, o sucesso da OpenAI exigiu vastas quantidades de recursos de GPU, abrindo o caminho para descobertas das quais a DeepSeek sem dúvida se beneficiou. O atual pânico dos investidores sobre empresas de chips e IA dos EUA parece prematuro e exagerado.

As capacidades de visão e geração de imagens do ChatGPT ainda são extremamente importantes e valiosas em ambientes de trabalho e pessoais — DeepSeek-R1 ainda não possui nenhuma

Embora o DeepSeek-R1 tenha impressionado com seu raciocínio visível de “cadeia de pensamento” — uma espécie de fluxo de consciência onde o modelo exibe texto enquanto analisa o prompt do usuário e busca respondê-lo — ele carece de vários recursos que tornam o ChatGPT uma ferramenta mais robusta e versátil hoje.

Sem capacidade de geração de imagens ou visão

O site oficial do DeepSeek-R1 e o aplicativo móvel permitem que os usuários enviem fotos e anexos de arquivo. No entanto, eles só podem extrair texto deles usando reconhecimento óptico de caracteres (OCR), uma das tecnologias de computação mais antigas (datando de 1959).

Isso é muito inferior às capacidades de visão do ChatGPT. Um usuário pode enviar imagens sem nenhum texto e ter o ChatGPT analisar a imagem, descrever ou fornecer mais informações com base no que vê e nos prompts de texto do usuário.

O ChatGPT permite que os usuários enviem fotos e pode analisar materiais visuais, oferecendo insights detalhados ou conselhos acionáveis. Por exemplo, quando precisei de orientações sobre como consertar minha bicicleta ou manter meu ar condicionado, a capacidade do ChatGPT de processar imagens foi inestimável. O DeepSeek-R1 simplesmente não consegue fazer isso ainda. Veja abaixo uma comparação visual:

Sem geração de imagem

A ausência de capacidades de geração de imagens é outra grande limitação. Como alguém que frequentemente gera imagens de IA usando o ChatGPT (como para o cabeçalho deste artigo) alimentado pelo modelo subjacente DALL·E 3 da OpenAI, a capacidade de criar imagens detalhadas e estilizadas com o ChatGPT é um divisor de águas.

Esse recurso é essencial para muitos fluxos de trabalho criativos e profissionais, e a DeepSeek ainda não demonstrou funcionalidade comparável, embora hoje a empresa tenha lançado um modelo de visão de código aberto, Janus Pro, que afirma superar o DALL·E 3, o Stable Diffusion 3 e outros modelos líderes de geração de imagem em benchmarks de terceiros.

Sem modo de voz

O DeepSeek-R1 também carece de um modo de interação por voz, um recurso que se tornou cada vez mais importante para acessibilidade e conveniência. O modo de voz do ChatGPT permite interações naturais e conversacionais, tornando-o uma escolha superior para uso sem as mãos ou para usuários com diferentes necessidades de acessibilidade.

Fique animado para o potencial futuro da DeepSeek — mas também fique atento aos seus desafios

Sim, o DeepSeek-R1 pode — e provavelmente vai — adicionar capacidades de voz e visão no futuro. Mas fazer isso não é uma tarefa simples.

Integrar a geração de imagens, análise de visão e capacidades de voz exige recursos de desenvolvimento substanciais e, ironicamente, muitas das mesmas GPUs de alto desempenho que os investidores estão agora subestimando. Implementar essas funcionalidades de forma eficaz e amigável é outro desafio totalmente diferente.

As realizações do DeepSeek-R1 são impressionantes e sinalizam uma mudança promissora na paisagem global da IA. No entanto, é crucial manter a excitação sob controle. Por enquanto, o ChatGPT permanece como o produto mais completo e capaz, oferecendo um conjunto de recursos que a DeepSeek simplesmente não consegue igualar. Vamos apreciar os avanços enquanto reconhecemos as limitações e a contínua importância da inovação e investimento em IA nos EUA.





    treze − treze =




    Bolt42