Bolt42

DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek entrou no consciente coletivo nesta semana, após seu aplicativo de chatbot subir ao topo das paradas da Apple App Store (e também do Google Play). Os modelos de IA da DeepSeek, treinados por técnicas eficientes em computação, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA será sustentável.

Mas de onde veio a DeepSeek e como ela alcançou fama internacional tão rapidamente?

As origens de trader da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de negociação.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se envolver em negociações enquanto era aluno da Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado no desenvolvimento e implantação de algoritmos de IA.

Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório se desdobrou em uma empresa independente, também chamada DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para o treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada por proibições de exportação dos EUA sobre hardware. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos poderosa do chip H100, disponível para empresas dos EUA.

A equipe técnica da DeepSeek é considerada jovem. A empresa reportadamente recruta agressivamente pesquisadores de doutorado em IA de universidades chinesas de ponta. A DeepSeek também contrata pessoas sem qualquer formação em ciência da computação para ajudar sua tecnologia a compreender melhor uma ampla gama de assuntos, segundo o The New York Times.

Os modelos robustos da DeepSeek

A DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi apenas na primavera passada, quando a startup lançou sua próxima geração de modelos, a DeepSeek-V2, que a indústria de IA começou a prestar atenção.

DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um desempenho excepcional em vários benchmarks de IA — e era muito mais barato de operar em comparação com modelos similares na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos, tornando outros completamente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download, como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados por meio de API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo de raciocínio R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 tem desempenho semelhante ao modelo o1 da OpenAI em benchmarks essenciais.

Como um modelo de raciocínio, o R1 se autocorrige, o que o ajuda a evitar algumas armadilhas que normalmente afetam outros modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação com um modelo não raciocinador típico. A vantagem é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.

No entanto, há um lado negativo para o R1, o DeepSeek V3 e os outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos à avaliação pela agência reguladora de internet da China para garantir que suas respostas “incorporem valores socialistas fundamentais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responde a perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.

Uma abordagem disruptiva

Se a DeepSeek tem um modelo de negócios, não está claro qual exatamente é. A empresa precifica seus produtos e serviços muito abaixo do valor de mercado — e oferece outros gratuitamente.

A maneira como a DeepSeek conta, avanços em eficiência permitiram que ela mantivesse uma competitividade de custos extrema. Alguns especialistas contestam os números fornecidos pela empresa, porém.

Independentemente do caso, os desenvolvedores adotaram os modelos da DeepSeek, que não são open source no sentido comum da expressão, mas estão disponíveis sob licenças permissivas que permitem uso comercial. Segundo Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, os desenvolvedores na Hugging Face criaram mais de 500 “modelos derivados” do R1 que acumularam 2,5 milhões de downloads no total.

O sucesso da DeepSeek em relação a rivais maiores e mais estabelecidos foi descrito como “desestabilizar a IA” e “sobre-hypeado.” O sucesso da empresa foi responsável, em parte, por causar uma queda de 18% no preço das ações da Nvidia na segunda-feira, e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.

A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando perguntado sobre o impacto da DeepSeek nos gastos em IA da Meta durante a teleconferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos em infraestrutura de IA continuarão sendo uma “vantagem estratégica” para a Meta.

Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, assim como países inteiros e governos.

Quanto ao que o futuro pode reservar para a DeepSeek, não está claro. Modelos aprimorados são uma certeza. Mas o governo dos EUA parece estar ficando cauteloso com o que percebe como uma influência estrangeira prejudicial.

A TechCrunch possui um boletim informativo focado em IA! Assine aqui para recebê-lo na sua caixa de entrada toda quarta-feira.

Esta história foi publicada pela primeira vez em 28 de janeiro de 2025 e será atualizada continuamente com mais informações.


    oito + sete =

    Bolt42