DeepSeek: Tudo que você precisa saber sobre o aplicativo de chatbot de IA

A DeepSeek se tornou viral.

O laboratório de IA chinês DeepSeek ganhou notoriedade esta semana após seu aplicativo de chatbot alcançar o topo das paradas da App Store da Apple. Os modelos de IA da DeepSeek, treinados usando técnicas eficientes em termos de computação, fizeram com que analistas de Wall Street — e tecnólogos — questionassem se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA se sustentará.

Mas de onde vem a DeepSeek e como ela ganhou fama internacional tão rapidamente?

As origens de trader da DeepSeek

A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de investimento.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se envolver com trading enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado no desenvolvimento e implantação de algoritmos de IA.

Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seu negócio financeiro. Com a High-Flyer como um dos investidores, o laboratório se desprendeu em uma empresa própria, também chamada DeepSeek.

Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de datacenter para o treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada pelas proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos potente de um chip, o H100, disponível para empresas americanas.

A equipe técnica da DeepSeek é dita como sendo jovem. A empresa faz recrutamento agressivo de pesquisadores de IA com doutorado das principais universidades chinesas. A DeepSeek também contrata pessoas sem qualquer formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.

Os modelos robustos da DeepSeek

A DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Porém, foi apenas na primavera passada, quando a startup lançou sua próxima geração de modelos DeepSeek-V2, que a indústria de IA começou a prestar atenção.

O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve bom desempenho em vários benchmarks de IA — e custou muito menos para rodar em comparação com modelos similares na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e tornar outros completamente gratuitos.

O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.

De acordo com os testes internos de benchmark da DeepSeek, o DeepSeek V3 supera tanto modelos baixáveis e abertos como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.

Igualmente impressionante é o modelo R1 de “raciocínio” da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 performa tão bem quanto o modelo o1 da OpenAI em benchmarks-chave.

Sendo um modelo de raciocínio, o R1 efetivamente valida suas próprias respostas, o que ajuda a evitar algumas das falhas que normalmente atrapalham os modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico que não raciocina. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.

Por outro lado, há um ponto negativo para o R1, para o DeepSeek V3 e para os outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos à avaliação por parte do regulador de internet da China para garantir que suas respostas “incorporem valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá perguntas sobre a Praça Tiananmen ou a autonomia de Taiwan.

Uma abordagem disruptiva

Se a DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e oferece outros gratuitamente.

Como a DeepSeek conta, avanços em eficiência a têm permitido manter uma competitividade de custo extrema. Alguns especialistas disputam os números que a empresa forneceu, no entanto.

De qualquer forma, os desenvolvedores têm se voltado para os modelos da DeepSeek, que não são de código aberto como o termo é comumente entendido, mas estão disponíveis sob licenças permissivas que permitem uso comercial. Segundo Clem Delangue, CEO da Hugging Face, uma das plataformas que hospedam os modelos da DeepSeek, os desenvolvedores na Hugging Face criaram mais de 500 modelos “derivados” do R1 que acumulam 2,5 milhões de downloads no total.

O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “desestabilizando a IA” e iniciando “uma nova era de agressão em IA.” O sucesso da empresa foi pelo menos parcialmente responsável pela queda de 18% no preço das ações da Nvidia na segunda-feira, e pela resposta pública do CEO da OpenAI, Sam Altman.

Quanto ao que o futuro da DeepSeek pode conter, não está claro. Melhorias nos modelos são uma certeza. Mas o governo dos EUA parece estar se tornando cauteloso em relação ao que percebe como influência estrangeira prejudicial.