O DeepSeek se tornou viral.
O laboratório de IA chinês DeepSeek ganhou destaque esta semana, depois que seu aplicativo de chatbot alcançou o topo das paradas da App Store da Apple (e do Google Play também). Os modelos de IA do DeepSeek, que foram treinados usando técnicas de computação eficientes, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA conseguem manter sua liderança na corrida da IA e se a demanda por chips de IA se sustentará.
Mas de onde veio o DeepSeek e como ele subiu à fama internacional tão rapidamente?
As origens de trader do DeepSeek
DeepSeek é apoiado pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de negociação.
O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se aventurar na negociação enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focando no desenvolvimento e implementação de algoritmos de IA.
Em 2023, a High-Flyer fundou o DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório se desdobrou em uma própria empresa, também chamada DeepSeek.
Desde o primeiro dia, o DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, o DeepSeek foi afetado pelas proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa teve que usar chips Nvidia H800, uma versão menos poderosa de um chip, o H100, disponível para empresas dos EUA.
A equipe técnica do DeepSeek é considerada jovem. A empresa reportadamente recruta agressivamente pesquisadores de doutorado em IA das principais universidades chinesas. O DeepSeek também contrata pessoas sem qualquer formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.
Os modelos robustos do DeepSeek
O DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera passada, quando a startup lançou sua próxima geração de modelos, a família DeepSeek-V2, que a indústria de IA começou a prestar atenção.
DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA — e era muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência doméstica do DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e tornar outros completamente gratuitos.
O DeepSeek-V3, lançado em dezembro de 2024, apenas acrescentou à notoriedade do DeepSeek.
De acordo com os testes de benchmark internos do DeepSeek, o DeepSeek V3 supera tanto modelos baixáveis e abertamente disponíveis, como o Llama da Meta, quanto modelos “fechados” que podem ser acessados apenas por meio de API, como o GPT-4 da OpenAI.
Igualmente impressionante é o modelo de “raciocínio” R1 do DeepSeek. Lançado em janeiro, o DeepSeek afirma que o R1 tem desempenho equivalente ao modelo o1 da OpenAI em benchmarks chave.
Sendo um modelo de raciocínio, o R1 efetivamente se auto-fact-check, o que ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Modelos de raciocínio demoram um pouco mais — geralmente de segundos a minutos mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. A vantagem é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
Há, no entanto, uma desvantagem para o R1, DeepSeek V3 e outros modelos do DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos ao benchmarking pelo regulador da internet da China para garantir que suas respostas “incorporem valores socialistas centrais.” No aplicativo de chatbot do DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou sobre a autonomia de Taiwan.
Uma abordagem disruptiva
Se o DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e dá alguns deles gratuitamente.
Do jeito que o DeepSeek conta, avanços em eficiência permitiram que ela mantivesse uma extrema competitividade de custos. No entanto, alguns especialistas contestam os números fornecidos pela empresa.
Qualquer que seja o caso, os desenvolvedores adotaram os modelos do DeepSeek, que não são de código aberto como o termo é comumente entendido, mas estão disponíveis sob licenças permissivas que permitem uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos do DeepSeek, desenvolvedores na Hugging Face criaram mais de 500 modelos “derivados” do R1 que acumularam 2,5 milhões de downloads combinados.
O sucesso do DeepSeek em relação a rivais maiores e mais estabelecidos foi descrito como “revolucionando a IA” e “superestimado”. O sucesso da empresa foi responsável por causar pelo menos em parte uma queda de 18% no preço das ações da Nvidia na segunda-feira e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.
A Microsoft anunciou que o DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando questionado sobre o impacto do DeepSeek nos gastos com IA da Meta durante a chamada de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos em infraestrutura de IA continuarão sendo uma “vantagem estratégica” para a Meta.
Ao mesmo tempo, algumas empresas estão banindo o DeepSeek, assim como países inteiros e governos, incluindo a Coreia do Sul. O estado de Nova York também baniu o DeepSeek de ser usado em dispositivos governamentais.
Quanto ao que pode ser o futuro do DeepSeek, não está claro. Modelos melhorados são uma certeza. Mas o governo dos EUA parece estar se tornando cauteloso em relação ao que considera influência estrangeira prejudicial.
A TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo na sua caixa de entrada toda quarta-feira.
Esta história foi originalmente publicada em 28 de janeiro de 2025 e será atualizada continuamente com mais informações.
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…