Bolt42

DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek conquistou a consciência mainstream esta semana, após seu aplicativo de chatbot alcançar o topo das paradas da App Store da Apple (e do Google Play também). Os modelos de IA da DeepSeek, que foram treinados usando técnicas eficientes em termos de computação, fizeram com que analistas de Wall Street — e tecnologistas — questionassem se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA se sustentará.

Mas de onde veio a DeepSeek, e como ela alcançou a fama internacional tão rapidamente?

As origens comerciais da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de investimento.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se aventurar em operações financeiras enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo hedge em 2019, focando no desenvolvimento e na implementação de algoritmos de IA.

Em 2023, a High-Flyer criou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório se transformou em uma empresa própria, também chamada DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada por proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi obrigada a usar chips Nvidia H800, uma versão menos potente do chip H100, disponível para empresas americanas.

A equipe técnica da DeepSeek é conhecida por ser bastante jovem. A empresa relativamente recruta agressivamente pesquisadores de IA com doutorado das principais universidades chinesas. A DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, de acordo com o The New York Times.

Os modelos robustos da DeepSeek

A DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera passada, quando a startup lançou sua próxima geração de modelos DeepSeek-V2, que a indústria de IA começou a prestar atenção.

O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA — e era muito mais barato de executar do que modelos comparáveis na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e até mesmo torná-los completamente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos baixáveis e de acesso aberto como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo de “raciocínio” R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 se sai tão bem quanto o modelo o1 da OpenAI em benchmarks importantes.

Como um modelo de raciocínio, o R1 se auto-verifica, o que ajuda a evitar algumas das armadilhas que normalmente confundem outros modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos — para chegar a soluções em comparação com um modelo não baseado em raciocínio. A vantagem é que tendem a ser mais confiáveis em domínios como física, ciência e matemática.

No entanto, há uma desvantagem para o R1, DeepSeek V3 e outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos a avaliações pela reguladora de internet da China para garantir que suas respostas “incorporem valores socialistas centrais”. No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.

Uma abordagem disruptiva

Se a DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e oferece outros gratuitamente.

Do jeito que a DeepSeek conta, avanços em eficiência permitiram que ela mantivesse uma extrema competitividade em custos. No entanto, alguns especialistas contestam os números fornecidos pela empresa.

De qualquer forma, os desenvolvedores têm adotado os modelos da DeepSeek, que não são open source como o termo é comumente entendido, mas estão disponíveis sob licenças permissivas que permitem o uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, os desenvolvedores na Hugging Face criaram mais de 500 modelos “derivativos” do R1 que acumularam 2,5 milhões de downloads no total.

O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “revolucionando a IA” e “supervalorizado”. O sucesso da empresa foi, ao menos em parte, responsável por fazer com que o preço das ações da Nvidia caísse 18% na segunda-feira, e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.

A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando questionado sobre o impacto da DeepSeek nos gastos com IA da Meta durante a conferência de ganhos do primeiro trimestre, o CEO Mark Zuckerberg afirmou que os gastos com infraestrutura de IA continuarão sendo uma “vantagem estratégica” para a Meta.

Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, assim como países e governos inteiros. O estado de Nova York também baniu o uso da DeepSeek em dispositivos governamentais.

Quanto ao que o futuro da DeepSeek pode reservar, não está claro. Modelos aprimorados são uma certeza. Mas o governo dos EUA parece estar cada vez mais cauteloso em relação ao que percebe como influência estrangeira prejudicial.

A TechCrunch possui um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada toda quarta-feira.

Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada continuamente com mais informações.


    dezessete + treze =

    Bolt42