Bolt42

DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek entrou na consciência popular esta semana, depois que seu aplicativo de chatbot subiu ao topo das paradas da Apple App Store (e do Google Play também). Os modelos de IA da DeepSeek, treinados com técnicas eficientes em termos de computação, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA vai se sustentar.

Mas de onde veio a DeepSeek e como ela alcançou fama internacional tão rapidamente?

As origens de trader da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de negócios.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se envolver com trading enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, com foco no desenvolvimento e implementação de algoritmos de IA.

Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório se desdobrou em sua própria empresa, também chamada DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada pelas proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos poderosa do chip H100, disponível para empresas dos EUA.

A equipe técnica da DeepSeek é considerada jovem. A empresa supostamente recruta agressivamente pesquisadores de IA com doutorado de universidades chinesas de prestígio. A DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla variedade de assuntos, de acordo com o The New York Times.

Os modelos fortes da DeepSeek

A DeepSeek lançou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi apenas na primavera passada, quando a startup lançou sua próxima geração de modelos DeepSeek-V2, que a indústria de IA começou a prestar atenção.

O DeepSeek-V2, um sistema de análise geral de texto e imagem, teve um bom desempenho em vários benchmarks de IA — e foi muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência interna da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e a tornar outros completamente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes internos de benchmarks da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download e abertos como o Llama da Meta quanto modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo de “raciocínio” R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 tem desempenho semelhante ao modelo o1 da OpenAI em benchmarks chave.

Como um modelo de raciocínio, o R1 efetivamente verifica suas próprias respostas, o que ajuda a evitar algumas armadilhas que normalmente atrapalham os modelos. Modelos de raciocínio tendem a levar um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico que não é de raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.

Por outro lado, existe uma desvantagem para o R1, DeepSeek V3 e outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos a avalições pelo regulador da internet da China para garantir que suas respostas “incorporem valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.

Em março, a DeepSeek ultrapassou 16,5 milhões de visitas. “Para março, a DeepSeek está em segundo lugar, apesar de ter visto o tráfego cair 25% em relação a fevereiro, com base nas visitas diárias”, disse David Carr, editor da Similarweb, ao TechCrunch. No entanto, isso ainda é muito inferior ao ChatGPT, que ultrapassou 500 milhões de usuários ativos semanais em março.

Em maio, a DeepSeek lançou uma versão atualizada de seu modelo de IA de raciocínio R1 na plataforma de desenvolvedores Hugging Face.

Uma abordagem disruptiva

Se a DeepSeek possui um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e oferece outros gratuitamente. Também não está aceitando dinheiro de investidores, apesar do enorme interesse de capital de risco.

Pelo que a DeepSeek conta, quebra de eficiência permitiu que mantivesse uma competitividade de custo extrema. No entanto, alguns especialistas discute os números fornecidos pela empresa.

Seja como for, os desenvolvedores têm adotado os modelos da DeepSeek, que não são de código aberto no sentido comum, mas estão disponíveis sob licenças permissivas que permitem o uso comercial. De acordo com Clem Delangue, o CEO do Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, desenvolvedores no Hugging Face criaram mais de 500 modelos “derivativos” do R1 que acumularam 2,5 milhões de downloads combinados.

O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “desestabilizar a IA” e “superestimado.” O sucesso da empresa foi, em parte, responsável por causar uma queda de 18% no preço das ações da Nvidia em janeiro e por elicitar uma resposta pública do CEO da OpenAI, Sam Altman. Em março, os departamentos da administração dos EUA informaram que a DeepSeek será banida em seus dispositivos governamentais, de acordo com a Reuters.

A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob um único banner. Quando perguntado sobre o impacto da DeepSeek nos gastos com IA da Meta durante a teleconferência de lucros do primeiro trimestre, o CEO Mark Zuckerberg afirmou que os investimentos em infraestrutura de IA continuarão a ser uma “vantagem estratégica” para a Meta. Em março, a OpenAI chamou a DeepSeek de “subsidiada pelo estado” e “controlada pelo estado,” e recomenda que o governo dos EUA considere banir modelos da DeepSeek.

Durante a teleconferência de lucros do quarto trimestre da Nvidia, o CEO Jensen Huang enfatizou a “excelente inovação” da DeepSeek, afirmando que ela e outros modelos de “raciocínio” são ótimos para a Nvidia porque precisam de muito mais computação.

Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, assim como países e governos inteiros, incluindo a Coreia do Sul. O estado de Nova York também baniu a DeepSeek de ser usada em dispositivos governamentais.

Em maio, o vice-presidente e presidente da Microsoft, Brad Smith, afirmou em uma audiência no Senado que os funcionários da Microsoft não podem usar a DeepSeek devido a preocupações com segurança de dados e propaganda.

Quanto ao que pode esperar para o futuro da DeepSeek, não está claro. Modelos aprimorados são uma certeza. Mas o governo dos EUA parece estar crescendo cauteloso em relação ao que percebe como influência estrangeira prejudicial. Em março, o Wall Street Journal relatou que os EUA provavelmente banirão a DeepSeek em dispositivos do governo.

Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regularmente.


    dezessete − 13 =

    Bolt42