Bolt42

A DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek ganhou destaque na consciência pública esta semana após seu aplicativo de chatbot subir ao topo das paradas da Apple App Store (e Google Play também). Os modelos de IA da DeepSeek, que foram treinados usando técnicas de computação eficiente, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA irá se sustentar.

Mas de onde surgiu a DeepSeek e como ela alcançou a fama internacional tão rapidamente?

Origens de trader da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa IA para informar suas decisões de negociação.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se envolver com trading enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado no desenvolvimento e implantação de algoritmos de IA.

Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seu negócio financeiro. Com a High-Flyer como um dos investidores, o laboratório se tornou uma empresa própria, também chamada de DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada pelas proibições de exportação dos EUA sobre hardware. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos poderosa de um chip, o H100, disponível para empresas dos EUA.

A equipe técnica da DeepSeek é considerada majoritariamente jovem. A empresa recruta agressivamente pesquisadores de doutorado em IA de universidades chinesas de destaque. A DeepSeek também contrata pessoas sem nenhum histórico em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.

Modelos robustos da DeepSeek

A DeepSeek apresentou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi na primavera passada, quando a startup lançou sua próxima geração de modelos, a família DeepSeek-V2, que a indústria de IA começou a notar.

O DeepSeek-V2, um sistema de análise de texto e imagem de propósito geral, apresentou um bom desempenho em vários benchmarks de IA — e era muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e a tornar outros totalmente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download e de acesso aberto, como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo de “raciocínio” R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 tem desempenho semelhante ao modelo o1 da OpenAI em benchmarks-chave.

Sendo um modelo de raciocínio, o R1 efetivamente faz a autoverificação, o que ajuda a evitar algumas das armadilhas que normalmente afetam modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. A vantagem é que tendem a ser mais confiáveis em domínios como física, ciência e matemática.

No entanto, há um lado negativo para o R1, DeepSeek V3 e os outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos a benchmarking pelo regulador da internet da China para garantir que suas respostas “incorporem valores socialistas centrais”. No app de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.

Uma abordagem disruptiva

Se a DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços muito abaixo do valor de mercado — e dá outros de graça. Além disso, não está aceitando investimentos, apesar do grande interesse de capital de risco.

Da forma como a DeepSeek relata, descobertas de eficiência permitiram que mantivesse uma competitividade de custos extrema. No entanto, alguns especialistas disputam os números que a empresa forneceu.

Independentemente do que possa ser, os desenvolvedores têm adotado os modelos da DeepSeek, que não são de código aberto como o termo é comumente entendido, mas estão disponíveis sob licenças permissivas que permitem uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, desenvolvedores na Hugging Face criaram mais de 500 modelos “derivativos” do R1 que acumularam 2,5 milhões de downloads combinados.

O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “revolucionando a IA” e “supervalorizado”. O sucesso da empresa foi pelo menos em parte responsável por causar uma queda de 18% no preço das ações da Nvidia em janeiro e elicitar uma resposta pública do CEO da OpenAI, Sam Altman.

A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando perguntado sobre o impacto da DeepSeek nos gastos de IA da Meta durante a conferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos em infraestrutura de IA continuarão a ser uma “vantagem estratégica” para a Meta. Em março, a OpenAI chamou a DeepSeek de “subsidiada pelo estado” e “controlada pelo estado”, e recomendou que o governo dos EUA considerasse proibir modelos da DeepSeek.

Durante a chamada de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang enfatizou a “excelente inovação” da DeepSeek, dizendo que ela e outros modelos de “raciocínio” são ótimos para a Nvidia porque precisam de muito mais computação.

Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, e também países inteiros e governos, incluindo a Coreia do Sul. O estado de Nova York também baniu o uso da DeepSeek em dispositivos governamentais.

Quanto ao que o futuro pode reservar para a DeepSeek, não está claro. Melhorias nos modelos são uma certeza. Mas o governo dos EUA parece estar cada vez mais cauteloso em relação ao que percebe como uma influência estrangeira prejudicial. Em março, o The Wall Street Journal informou que os EUA provavelmente banirão a DeepSeek em dispositivos do governo.

Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regularmente.


    2 × 3 =

    Bolt42