DeepSeek se tornou viral.
O laboratório de IA chinês DeepSeek ganhou destaque esta semana após seu aplicativo de chatbot chegar ao topo das paradas da Apple App Store (e do Google Play também). Os modelos de IA da DeepSeek, que foram treinados utilizando técnicas de computação eficientes, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA conseguem manter sua liderança na corrida da IA e se a demanda por chips de IA será sustentável.
Mas de onde surgiu a DeepSeek e como ela alcançou fama internacional tão rapidamente?
As origens de trader da DeepSeek
A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa IA para informar suas decisões de negociação.
O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng, que supostamente começou a se aventurar em negociação enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado em desenvolver e implantar algoritmos de IA.
Em 2023, a High-Flyer criou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seu negócio financeiro. Com a High-Flyer como um de seus investidores, o laboratório se desmembrou em uma empresa própria, também chamada DeepSeek.
Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek tem sido afetada por proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos potente do chip H100, disponível para empresas dos EUA.
A equipe técnica da DeepSeek é considerada jovem. A empresa supostamente recruta agressivamente pesquisadores de IA com doutorado de universidades chinesas de prestígio. A DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.
Os modelos robustos da DeepSeek
A DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera, quando a startup lançou sua próxima geração de modelos, a família DeepSeek-V2, que a indústria de IA começou a prestar atenção.
O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA — e era muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e a tornar outros completamente gratuitos.
O DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.
De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera tanto modelos baixáveis e abertamente disponíveis, como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados através de uma API, como o GPT-4 da OpenAI.
Igualmente impressionante é o modelo de “razonamento” R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 tem um desempenho equivalente ao modelo o1 da OpenAI em benchmarks-chave.
Sendo um modelo de razonamento, o R1 efetivamente se autocorrige, o que ajuda a evitar algumas das armadilhas que normalmente atrapalham outros modelos. Modelos de razonamento levam um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções comparados a um modelo típico sem razonamento. A vantagem é que tendem a ser mais confiáveis em domínios como física, ciência e matemática.
No entanto, há uma desvantagem para o R1, DeepSeek V3 e outros modelos da DeepSeek. Sendo uma IA desenvolvida na China, eles estão sujeitos a avaliações pelo regulador de internet da China para assegurar que suas respostas “incorporem valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responderá a perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.
Uma abordagem disruptiva
Se a DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços muito abaixo do valor de mercado — e oferece outros gratuitamente. Também não está aceitando dinheiro de investidores, apesar do enorme interesse de capital de risco.
Do ponto de vista da DeepSeek, avanços em eficiência permitiram que ela mantivesse uma competitividade de custos extrema. No entanto, alguns especialistas disciplina as cifras que a empresa forneceu, no entanto.
Independentemente do que seja, os desenvolvedores têm adotado os modelos da DeepSeek, que não são de código aberto como a expressão é comumente entendida, mas estão disponíveis sob licenças permissivas que permitem uso comercial. Segundo Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, os desenvolvedores da Hugging Face criaram mais de 500 modelos “derivativos” do R1 que somam um total de 2,5 milhões de downloads combinados.
O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como “revolucionar a IA” e “exagerado.” O sucesso da empresa foi, em parte, responsável por fazer com que o preço das ações da Nvidia caísse em 18% em janeiro e por provocar uma resposta pública do CEO da OpenAI, Sam Altman. Em março, os escritórios do Departamento de Comércio dos EUA informaram que DeepSeek será proibido em seus dispositivos governamentais, segundo a Reuters.
A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob um único banner. Quando perguntado sobre o impacto da DeepSeek nos gastos em IA da Meta durante sua chamada de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos com infraestrutura de IA continuarão a ser uma “vantagem estratégica” para a Meta. Em março, a OpenAI chamou a DeepSeek de “subsidiada pelo Estado” e “controlada pelo Estado,” e recomenda que o governo dos EUA considere proibir modelos da DeepSeek.
Durante a chamada de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang enfatizou a “excelente inovação” da DeepSeek, dizendo que ela e outros modelos de “razonamento” são ótimos para a Nvidia porque precisam de muito mais computação.
Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, assim como países inteiros e governos, incluindo a Coreia do Sul. O estado de Nova York também baniu a DeepSeek de ser usada em dispositivos governamentais.
Quanto ao futuro da DeepSeek, não está claro. Modelos aprimorados são garantidos. Mas o governo dos EUA parece estar ficando cauteloso com o que percebe como influência estrangeira prejudicial. Em março, o The Wall Street Journal informou que os EUA provavelmente banirá a DeepSeek em dispositivos governamentais.
Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regularmente.
Conteúdo relacionado
A Anthropic parece estar utilizando o Brave para impulsionar a busca na web para seu chatbot Claude.
[the_ad id="145565"] No início desta semana, a Anthropic lançou um recurso de busca na web para sua plataforma de chatbot alimentada por IA, Claude, trazendo o bot em…
A Meta possui acordos de compartilhamento de receita com os anfitriões do modelo Llama AI, revela arquivo.
[the_ad id="145565"] Em um postagem em blog feita em julho passado, o CEO da Meta, Mark Zuckerberg, afirmou que “vender acesso” aos modelos Llama de IA da Meta, que estão…
Menos é mais: UC Berkeley e Google revelam o potencial de LLM através de amostragem simples.
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba…