O laboratório de IA chinês DeepSeek provocou a primeira crise de ansiedade no Vale do Silício em 2025 após lançar versões abertas de modelos de IA que competem com as melhores tecnologias que a OpenAI, Meta e Google têm a oferecer.
DeepSeek afirma ter construído seus modelos de forma altamente eficiente e rápida (embora alguns sejam céticos em relação a essas afirmações) e está oferecendo esses modelos a uma fração do preço cobrado pelas empresas americanas de IA. O desenvolvimento abalou não apenas os gigantes da tecnologia, mas também os mais altos níveis do governo dos EUA, que temem que a China esteja avançando na corrida armamentista de IA.
“Não ficaria surpreso se muitos laboratórios de IA estivessem funcionando em regime de emergência agora,” disse Robert Nishihara, cofundador da startup de infraestrutura de IA Anyscale, em uma entrevista ao TechCrunch.
O surgimento do DeepSeek marca um ponto de inflexão para a paisagem de IA do Vale do Silício. CEOs de IA, fundadores, pesquisadores e investidores informaram ao TechCrunch que os modelos do DeepSeek têm grandes implicações para a política de IA americana. Além disso, esses especialistas afirmam que os modelos servem como um indicador da taxa acelerada de progresso em IA.
“Claro que [o DeepSeek] foi superestimado,” disse Ravid Shwartz-Ziv, professor assistente do Centro de Ciências de Dados da NYU, em uma entrevista. “Mas ainda é muito interessante, e há muito que podemos aprender com isso.”
Novas maneiras de fazer a IA pensar
Uma das principais inovações do DeepSeek na criação de seu modelo R1 foi a “aprendizagem por reforço puro”, uma abordagem de tentativa e erro, segundo Kian Katanforoosh, CEO da Workera e professor adjunto de Stanford.
Katanforoosh comparou o avanço do DeepSeek a uma criança que aprende a não tocar em um prato quente ao queimar-se acidentalmente.
“[Uma criança] pode tocar um prato quente, se queimar e rapidamente aprender a não fazer isso de novo,” disse Katanforoosh via texto. “Isso é aprendizado por reforço puro — aprender por tentativa e erro baseado no feedback […] O método do DeepSeek é tudo sobre deixar o modelo aprender apenas pela experiência.”
O DeepSeek parece ter dependido mais fortemente da aprendizagem por reforço do que outros modelos de IA de ponta. A OpenAI também usou técnicas de aprendizagem por reforço para desenvolver o o1, que a empresa revelou semanas antes de o DeepSeek anunciar o R1. O modelo o3 que a OpenAI está desenvolvendo obtém um desempenho ainda melhor usando métodos em grande parte semelhantes, mas também mais recursos computacionais, afirma a empresa.
A aprendizagem por reforço representa uma das maneiras mais promissoras de melhorar os modelos de base de IA hoje em dia, segundo Katanforoosh. O termo “modelos de base” refere-se geralmente a modelos de IA treinados em vastas quantidades de dados, como imagens e textos da web. É provável que outros laboratórios de IA continuem a explorar os limites da aprendizagem por reforço para melhorar seus modelos de IA, especialmente dada a successão do DeepSeek.
Apenas alguns meses atrás, as empresas de IA se viam lutando para aumentar o desempenho de seus modelos de base. Mas o sucesso de métodos como a aprendizagem por reforço e outros, como ajuste fino supervisionado e escalonamento em tempo de teste, indicam que o progresso em IA pode estar se retomando.
“O R1 me deu muito mais confiança de que o ritmo de progresso permanecerá alto,” disse Nathan Lambert, pesquisador da Ai2, em uma entrevista ao TechCrunch.
Um ponto de virada para a política de IA
O R1, que pode ser baixado e executado em qualquer máquina que atenda aos requisitos de hardware, iguala ou supera o o1 em uma série de benchmarks de IA. Embora não seja a primeira vez que vimos a diferença de desempenho diminuir entre modelos “fechados” como o da OpenAI e modelos disponíveis abertamente, a velocidade com a qual o DeepSeek fez isso surpreendeu a indústria.
Isso pode levar os EUA a aumentar seu investimento em IA aberta, ou até mesmo totalmente de código aberto, para competir com a China. Martin Casado, sócio-gerente da Andreessen Horowitz (a16z), disse ao TechCrunch que o DeepSeek prova o quão “errada” tem sido a justificativa regulatória dos últimos dois anos.
“Para a IA, acho que isso apenas nos mostra que [os Estados Unidos] não estão sozinhos em nossa capacidade técnica,” disse Casado em uma entrevista. “Soluções muito competitivas podem vir de qualquer lugar, mas em particular, da China. Ao invés de prejudicar a inovação americana, devemos investir fortemente nela. O código aberto não de forma alguma permite a China. Na verdade, impedir nossas empresas de fazer código aberto significa que nossa tecnologia não se propaga tanto.”
Casado parecia se referir à ordem executiva de IA recentemente revogada pelo ex-presidente Biden e ao projeto de lei vetado da Califórnia SB 1047, ambos os quais a a16z se opôs veementemente. A a16z argumentou que ambas as medidas priorizaram a prevenção de cenários “absurdos” de apocalipse de IA em detrimento da inovação americana. Mais amplamente, o Vale do Silício geralmente teve sucesso em desacelerar o “movimento do apocalipse de IA” em 2024. A verdadeira preocupação em torno da IA, repetidamente disseram a a16z e outros, é a perda da vantagem competitiva da América para a China.
Esse cenário parece agora muito mais tangível à luz do surgimento do DeepSeek.
Não por acaso, a a16z está fortemente investida em muitos dos maiores players do mundo da IA aberta, incluindo Databricks, Mistral e Black Forest Labs. A empresa de capital de risco também pode desempenhar um papel desproporcional aconselhando a administração Trump sobre IA. O ex-parceiro da a16z, Sriram Krishnan, agora é o principal conselheiro de política de IA de Trump.
O presidente Trump disse na segunda-feira que o DeepSeek deve ser um “despertar” para as empresas de IA americanas, enquanto elogiava o laboratório chinês de IA por sua abordagem aberta. Isso se alinha bastante com a posição da a16z sobre IA.
“O DeepSeek R1 é o momento Sputnik da IA,” disse Marc Andreessen, cofundador da a16z, em uma publicação no X, referindo-se ao lançamento da espaçonave que orbita a Terra da União Soviética décadas atrás, que levou os EUA a investir seriamente em seu programa espacial.
O surgimento do DeepSeek também parece ter mudado a opinião de céticos da IA aberta, como o ex-CEO do Google, Eric Schmidt. Apenas no ano passado, Schmidt expressou preocupação com a proliferação de modelos de IA abertos ocidentais em todo o mundo. Mas em um artigo publicado na terça-feira, Schmidt afirmou que o surgimento do DeepSeek marca um “ponto de virada” na corrida global pela IA e pediu mais investimento em IA aberta americana.
Olhando para o futuro
É importante não exagerar nas conquistas do DeepSeek.
Por exemplo, alguns analistas são céticos quanto à afirmação do DeepSeek de que treinou um de seus modelos de vanguarda, o DeepSeek V3, por apenas US$ 5,6 milhões — uma bagatela na indústria de IA — usando cerca de 2.000 GPUs Nvidia mais antigas. O laboratório chinês de IA não surgiu da noite para o dia, afinal, e o DeepSeek supostamente possui um estoque de mais de 50.000 GPUs Nvidia Hopper mais potentes.
Os modelos do DeepSeek também têm falhas. De acordo com um teste realizado pela organização de confiabilidade da informação NewsGuard, o R1 fornece respostas imprecisas ou não responde 83% das vezes quando questionado sobre tópicos relacionados a notícias. Um teste separado constatou que o R1 se recusa a responder 85% dos prompts relacionados à China, possivelmente uma consequência da censura governamental da qual os modelos de IA desenvolvidos na China são alvos.
Além disso, há as alegações de roubo de propriedade intelectual. A OpenAI afirma ter evidências de que a DeepSeek usou seus modelos de IA para treinar os seus próprios, utilizando um processo chamado destilação. Se isso for verdade, seria uma violação dos termos da OpenAI, e tornaria as realizações do DeepSeek menos impressionantes. Por exemplo, pesquisadores de Berkeley recentemente criaram um modelo de raciocínio destilado por apenas US$ 450. (Claro, a OpenAI está atualmente sendo processada por várias partes por supostamente cometer infração de direitos autorais ao treinar seus próprios modelos.)
Ainda assim, o DeepSeek mudou o cenário com modelos mais eficientes — e inovou. Lambert observou que, ao contrário do o1, o R1 revela seu “processo de pensamento” para os usuários. Lambert observou que alguns usuários confiam ou acreditam mais nos modelos de raciocínio de IA quando veem seu processo interno, durante o qual eles “explicam seu trabalho.”
Agora, teremos que ver como os formuladores de políticas dos EUA e os laboratórios de IA respondem.
O TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada toda quarta-feira.
Conteúdo relacionado
Operadora de data centers DataBank obtém investimento em capital de $250 milhões
[the_ad id="145565"] O mercado de data centers está em expansão, impulsionado pela demanda por IA. Na semana passada, a OpenAI anunciou que planeja se unir a investidores,…
A Factorial Capital adota uma nova abordagem para identificar startups com vantagem técnica.
[the_ad id="145565"] Para fazer apostas inteligentes na atual onda de startups, Matt Hartman acredita que os capitalistas de risco precisariam de uma compreensão mais profunda…
Google lança programa de “saída voluntária” para empregados do Android, Chrome e Pixel.
[the_ad id="145565"] Rick Osterloh, SVP do Google, enviou um memorando interno para a equipe de Pixel/Android/Chrome na quinta-feira, anunciando um “programa de saída…