Bolt42

DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek ganhou notoriedade esta semana após seu aplicativo de chatbot alcançar o topo das paradas da Apple App Store (e do Google Play, também). Os modelos de IA da DeepSeek, que foram treinados utilizando técnicas computacionais eficientes, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA continuará a crescer.

Mas de onde veio a DeepSeek e como conseguiu alcançar fama internacional tão rapidamente?

As origens de trader da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para orientar suas decisões de negociação.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a experimentar com trading enquanto era estudante na Universidade Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019 focado no desenvolvimento e implementação de algoritmos de IA.

Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seu negócio financeiro. Com a High-Flyer como um de seus investidores, o laboratório se desdobrou em sua própria empresa, também chamada DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para o treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada por proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi obrigada a usar chips Nvidia H800, uma versão menos potente de um chip, o H100, disponível para empresas americanas.

A equipe técnica da DeepSeek é considerada predominantemente jovem. A empresa segundo informações, recruta agressivamente pesquisadores de IA com doutorado de universidades chinesas de prestígio. A DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a compreender uma ampla gama de assuntos, conforme noticiado pelo The New York Times.

Os modelos robustos da DeepSeek

A DeepSeek apresentou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi apenas na primavera passada, quando a startup lançou sua família de modelos DeepSeek-V2 de próxima geração, que a indústria de IA começou a notar.

DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um desempenho excelente em vários benchmark de IA — e foi muito mais barato de operar do que modelos comparáveis da época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e a tornar outros completamente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download, como o Llama da Meta, quanto “modelos fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo de raciocínio R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 se sai tão bem quanto o modelo o1 da OpenAI em benchmarks-chave.

Por ser um modelo de raciocínio, o R1 se verifica, o que o ajuda a evitar algumas armadilhas que normalmente atrapalham outros modelos. Modelos de raciocínio demoram um pouco mais — geralmente segundos a minutos a mais — para chegar a soluções em comparação a um modelo típico sem raciocínio. O lado positivo é que tendem a ser mais confiáveis em domínios como física, ciências e matemática.

No entanto, há uma desvantagem para o R1, DeepSeek V3, e outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos à avaliação do regulador da internet da China para garantir que suas respostas “incorporem os valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.

Uma abordagem disruptiva

Se a DeepSeek tem um modelo de negócio, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e oferece alguns gratuitamente.

Da forma como a DeepSeek se apresenta, inovações em eficiência permitiram que mantivessem uma competitividade de custos extrema. Alguns especialistas questionam os números fornecidos pela empresa, no entanto.

Seja como for, os desenvolvedores se mostraram receptivos aos modelos da DeepSeek, que não são de código aberto como se entende a expressão, mas estão disponíveis sob licenças permissivas que permitem o uso comercial. Segundo Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, os desenvolvedores na Hugging Face criaram mais de 500 modelos “derivados” do R1, que acumularam 2,5 milhões de downloads no total.

O sucesso da DeepSeek contra concorrentes maiores e mais estabelecidos foi descrito como “revolucionando a IA” e “superestimado.” O sucesso da empresa foi, em parte, responsável por causar a queda de 18% no preço das ações da Nvidia na segunda-feira e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.

A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob um único banner. Quando questionado sobre o impacto da DeepSeek nos gastos da Meta em IA durante a teleconferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos em infraestrutura de IA continuarão a ser uma “vantagem estratégica” para a Meta.

Quanto ao que o futuro da DeepSeek pode guardar, não está claro. Modelos aprimorados são uma certeza. Mas o governo dos EUA parece estar se tornando cauteloso com o que percebe como influência estrangeira prejudicial.

A TechCrunch tem um boletim informativo focado em IA! Assine aqui para recebê-lo na sua caixa de entrada todas as quartas-feiras.

Esta história foi publicada originalmente em 28 de janeiro e será atualizada continuamente com mais informações.


    dezoito + oito =

    Bolt42