DeepSeek se tornou viral.
O laboratório de IA chinês DeepSeek ganhou destaque esta semana, após seu aplicativo de chatbot alcançar o topo das paradas da Apple App Store (e Google Play, também). Os modelos de IA da DeepSeek, que foram treinados usando técnicas eficientes de computação, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA conseguem manter sua liderança na corrida da IA e se a demanda por chips de IA será sustentável.
Mas de onde veio a DeepSeek, e como ela ganhou fama internacional tão rapidamente?
As origens de trader da DeepSeek
A DeepSeek é apoiada pelo High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA para informar suas decisões de negociação.
O entusiasta de IA Liang Wenfeng co-fundou o High-Flyer em 2015. Wenfeng, que reportedly começou a se aventurar no comércio enquanto era estudante na Universidade de Zhejiang, lançou o High-Flyer Capital Management como um fundo de hedge em 2019, focado em desenvolver e implantar algoritmos de IA.
Em 2023, o High-Flyer começou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separadas de seu negócio financeiro. Com o High-Flyer como um de seus investidores, o laboratório se desmembrou em sua própria empresa, também chamada DeepSeek.
Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de datacenter para treinamento de modelos. Mas, como outras empresas de IA na China, a DeepSeek foi afetada por proibições de exportação de hardware dos EUA. Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos poderosa de um chip, o H100, disponível para empresas dos EUA.
Evento Techcrunch
Berkeley, CA
|
5 de junho
RESERVE AGORA
O time técnico da DeepSeek é dito ser mais jovem. A empresa reportadamente recruta agressivamente doutores em IA das principais universidades chinesas. A DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.
Os modelos fortes da DeepSeek
A DeepSeek apresentou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera passada, quando a startup lançou sua próxima geração de modelos, a família DeepSeek-V2, que a indústria de IA começou a prestar atenção.
DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA — e era muito mais barato de operar do que modelos comparáveis na época. Isso forçou a concorrência doméstica da DeepSeek, incluindo ByteDance e Alibaba, a reduzir os preços de uso para alguns de seus modelos, e tornar outros completamente gratuitos.
DeepSeek-V3, lançado em dezembro de 2024, apenas aumentou a notoriedade da DeepSeek.
Segundo os testes internos de benchmarking da DeepSeek, o DeepSeek V3 supera tanto modelos disponíveis para download como o modelo Llama da Meta quanto modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4 da OpenAI.
Igualmente impressionante é o modelo de raciocínio R1 da DeepSeek. Lançado em janeiro, a DeepSeek afirma que o R1 tem um desempenho tão bom quanto o modelo o1 da OpenAI em benchmarks chave.
Como um modelo de raciocínio, o R1 efetivamente se auto-confere, o que ajuda a evitar algumas das armadilhas que normalmente atrapalham modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação com um modelo típico sem raciocínio. O lado positivo é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
No entanto, há uma desvantagem para o R1, DeepSeek V3 e outros modelos da DeepSeek. Sendo IA desenvolvida na China, eles estão sujeitos a benchmarking pelo regulador da internet da China para garantir que suas respostas “incorporem os valores socialistas centrais.” No aplicativo de chatbot da DeepSeek, por exemplo, o R1 não responde a perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.
Em março, a DeepSeek superou 16,5 milhões de visitas. “[F]or March, DeepSeek está em segundo lugar, apesar de ver o tráfego cair 25% em relação a fevereiro, com base nas visitas diárias,” disse David Carr, editor da Similarweb, ao TechCrunch. Ainda assim, isso é insignificante em comparação ao ChatGPT, que ultrapassou 500 milhões de usuários ativos semanais em março.
Uma abordagem disruptiva
Se a DeepSeek tem um modelo de negócios, não está claro qual é, exatamente. A empresa precifica seus produtos e serviços muito abaixo do valor de mercado — e oferece outros de graça. Também não está aceitando dinheiro de investidores, apesar de um grande interesse de capital de risco.
Do jeito que a DeepSeek conta, avanços em eficiência permitiram que mantivesse uma competitividade extrema em termos de custo. No entanto, alguns especialistas disputam os números que a empresa forneceu.
Independentemente do caso, os desenvolvedores começaram a se interessar pelos modelos da DeepSeek, que não são open source como o termo é comumente entendido, mas estão disponíveis sob licenças permissivas que permitem uso comercial. Segundo Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos da DeepSeek, desenvolvedores na Hugging Face criaram mais de 500 modelos “derivativos” do R1 que acumularam 2,5 milhões de downloads combinados.
O sucesso da DeepSeek contra rivais maiores e mais estabelecidos tem sido descrito como “desestabilizando a IA” e “superestimado.” O sucesso da empresa foi responsável, em parte, por causar uma queda de 18% no preço das ações da Nvidia em janeiro e por provocar uma resposta pública do CEO da OpenAI, Sam Altman. Em março, os departamentos do governo dos EUA informaram seus colaboradores que a DeepSeek será banida de seus dispositivos governamentais, segundo a Reuters.
A Microsoft anunciou que a DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando questionado sobre o impacto da DeepSeek nos gastos com IA da Meta durante a teleconferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos com infraestrutura de IA continuarão a ser uma “vantagem estratégica” para a Meta. Em março, a OpenAI chamou a DeepSeek de “subsidiada pelo estado” e “controlada pelo estado”, e recomenda que o governo dos EUA considere banir modelos da DeepSeek.
Durante a teleconferência de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang enfatizou a “excelente inovação” da DeepSeek, dizendo que ela e outros modelos “de raciocínio” são ótimos para a Nvidia, pois precisam de muito mais computação.
Ao mesmo tempo, algumas empresas estão banindo a DeepSeek, e países inteiros, incluindo a Coreia do Sul, também estão tomando essa atitude e governos. O estado de Nova York também baniu a DeepSeek de ser utilizada em dispositivos governamentais.
Em maio, o vice-presidente e presidente da Microsoft, Brad Smith, disse em uma audiência no Senado que os funcionários da Microsoft não têm permissão para usar a DeepSeek devido a preocupações com segurança de dados e propaganda.
Quanto ao que o futuro da DeepSeek pode reservar, não está claro. Modelos aprimorados são uma certeza. Mas o governo dos EUA parece estar cada vez mais cauteloso em relação ao que percebe como influência estrangeira prejudicial. Em março, o The Wall Street Journal informou que os EUA provavelmente banirão a DeepSeek em dispositivos do governo.
Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada regularmente.
Conteúdo relacionado
Zencoder lança Zen Agents, inaugurando uma nova era de IA em equipe para o desenvolvimento de software.
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas líderes do setor em IA. Saiba mais…
SoundCloud altera políticas para permitir treinamento de IA com conteúdo dos usuários.
[the_ad id="145565"] O SoundCloud aparentemente mudou silenciosamente seus termos de uso para permitir que a empresa treine IA com o áudio que os usuários enviam para sua…
Google I/O 2025: O que esperar, incluindo atualizações do Gemini e do Android 16
[the_ad id="145565"] O Google I/O, a maior conferência de desenvolvedores do Google, está quase chegando. Agendado para os dias 20 e 21 de maio no Shoreline Amphitheatre em…