DeepSeek se tornou viral.
O laboratório de IA chinês DeepSeek ganhou destaque esta semana depois que seu aplicativo de chatbot alcançou o topo das paradas da App Store da Apple (e do Google Play, também). Os modelos de IA da DeepSeek, que foram treinados usando técnicas eficientes em termos de computação, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA irá se sustentar.
Mas de onde surgiu a DeepSeek e como ela ganhou fama internacional tão rapidamente?
As origens de trader da DeepSeek
A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa IA para informar suas decisões de negociação.
O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se aventurar no trading enquanto era estudante da Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado em desenvolver e implantar algoritmos de IA.
Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seu negócio financeiro. Com a High-Flyer como um de seus investidores, o laboratório se transformou em sua própria empresa, também chamada DeepSeek.
Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada pelas proibições de exportação dos EUA sobre hardware. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos poderosa de um chip, o H100, disponível para empresas dos EUA.
A equipe técnica da DeepSeek é saida a ser jovem. A empresa recruta agressivamente pesquisadores de IA com doutorado de universidades chinesas de destaque. A DeepSeek também contrata pessoas sem qualquer formação em ciência da computação para ajudar sua tecnologia a compreender melhor uma ampla gama de assuntos, de acordo com o The New York Times.
Os modelos robustos da DeepSeek
A DeepSeek apresentou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera passada, quando a startup lançou sua próxima geração de modelos, a família DeepSeek-V2, que a indústria de IA começou a prestar atenção.
O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários testes de benchmark de IA — e era muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e tornar outros completamente gratuitos.
O DeepSeek-V3, lançado em dezembro de 2024, só aumentou a notoriedade da DeepSeek.
De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download, como o Llama da Meta quanto modelos “fechados” que podem ser acessados apenas por meio de uma API, como o GPT-4 da OpenAI.
Igualmente impressionante é o modelo R1 “raciocínio” da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 apresenta desempenho equivalente ao modelo o1 da OpenAI em benchmarks chave.
Sendo um modelo de raciocínio, o R1 efetivamente verifica a si mesmo, o que o ajuda a evitar algumas das armadilhas que normalmente pegam outros modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. A vantagem é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
No entanto, há uma desvantagem para o R1, DeepSeek V3 e outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos a testes de benchmark pelo regulador de internet da China para garantir que suas respostas “encarnem valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.
Uma abordagem disruptiva
Se a DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços muito abaixo do valor de mercado — e oferece outros gratuitamente.
Do jeito que a DeepSeek explica, breakthroughs em eficiência permitiram que ela mantivesse uma competitividade de custos extrema. No entanto, alguns especialistas contestam as cifras fornecidas pela empresa.
Independentemente de qual seja o caso, os desenvolvedores têm se interessado pelos modelos da DeepSeek, que embora não sejam open source no sentido mais comum da frase, estão disponíveis sob licenças permissivas que permitem o uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, os desenvolvedores na Hugging Face criaram mais de 500 modelos “derivados” do R1 que acumularam 2,5 milhões de downloads no total.
O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “desestruturando a IA” e “superestimado.” O sucesso da empresa foi pelo menos parcialmente responsável por causar uma queda de 18% no preço das ações da Nvidia em janeiro, e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.
A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando questionado sobre o impacto da DeepSeek nos gastos da Meta com IA durante a teleconferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg afirmou que os gastos com infraestrutura de IA continuarão sendo uma “vantagem estratégica” para a Meta.
Durante a teleconferência de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang destacou a “excelente inovação” da DeepSeek, afirmando que ela e outros modelos de “raciocínio” são ótimos para a Nvidia porque precisam de muito mais computação.
Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, assim como países e governos inteiros, incluindo a Coreia do Sul. O estado de Nova York também baniu a DeepSeek de ser usada em dispositivos governamentais.
Quanto ao que o futuro da DeepSeek pode reservar, não está claro. Melhores modelos são uma certeza. Mas o governo dos EUA parece estar cada vez mais cauteloso em relação ao que considera uma influência estrangeira nociva. Em março, o The Wall Street Journal relatou que os EUA provavelmente banirão a DeepSeek em dispositivos governamentais.
Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regularmente.
Conteúdo relacionado
Anthropic transforma a abordagem da IA na educação: o Modo de Aprendizagem do Claude faz os alunos refletirem.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre cobertura de IA de liderança no setor. Saiba mais……
Anthropic lança um plano de chatbot de IA para faculdades e universidades
[the_ad id="145565"] A Anthropic anunciou na quarta-feira que está lançando uma nova camada Claude para Educação, como resposta ao plano ChatGPT Edu da OpenAI. A nova camada é…
O artigo de 145 páginas da DeepMind sobre segurança em AGI pode não convencer os céticos.
[the_ad id="145565"] O Google DeepMind publicou na quarta-feira um documento exaustivo sobre sua abordagem de segurança para AGI, definida de forma ampla como uma IA capaz de…