Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba mais
O mundo da IA foi abalado na semana passada quando DeepSeek, uma startup de IA chinesa, anunciou seu mais recente modelo de linguagem DeepSeek-R1, que parecia igualar as capacidades dos principais sistemas de IA americanos a um custo muito menor. O anúncio provocou uma queda significativa no mercado, que eliminou quase US$ 200 bilhões do valor de mercado da Nvidia e gerou intensos debates sobre o futuro do desenvolvimento de IA.
A narrativa que rapidamente surgiu sugeriu que a DeepSeek havia interrompido fundamentalmente a economia da construção de sistemas avançados de IA, supostamente alcançando com apenas US$ 6 milhões o que empresas americanas gastaram bilhões para realizar. Essa interpretação enviou ondas de choque através do Vale do Silício, onde empresas como OpenAI, Anthropic e Google justificaram investimentos massivos em infraestrutura de computação para manter sua vantagem tecnológica.
No entanto, em meio à turbulência do mercado e manchetes eufóricas, Dario Amodei, cofundador da Anthropic e um dos pioneiros por trás dos grandes modelos de linguagem (LLMs) de hoje, publicou uma análise detalhada que oferece uma perspectiva mais matizada sobre as conquistas da DeepSeek. Sua postagem no blog corta a histeria e entrega várias percepções cruciais sobre o que a DeepSeek realmente alcançou e o que isso significa para o futuro do desenvolvimento de IA.
Aqui estão os quatro principais insights da análise de Amodei que reformulam nossa compreensão do anúncio da DeepSeek.
1. A narrativa do ‘modelo de 6 milhões de dólares’ ignora um contexto crucial
Os custos de desenvolvimento reportados da DeepSeek precisam ser vistos sob uma perspectiva mais ampla, segundo Amodei. Ele desafia diretamente a interpretação popular:
“A DeepSeek não ‘faz por 6 milhões de dólares o que custou bilhões às empresas de IA dos EUA.’ Posso falar apenas pela Anthropic, mas o Claude 3.5 Sonnet é um modelo de tamanho médio que custou alguns dezenas de milhões para treinar (não vou dar um número exato). Além disso, o Sonnet 3.5 não foi treinado de maneira que envolvesse um modelo maior ou mais caro (contrariamente a alguns rumores).”
Essa revelação chocante muda fundamentalmente a narrativa em torno da eficiência de custo da DeepSeek. Ao considerar que o Sonnet foi treinado de 9 a 12 meses atrás e ainda supera o modelo da DeepSeek em várias tarefas, a conquista parece mais alinhada com a progressão natural dos custos de desenvolvimento de IA, em vez de um avanço revolucionário.
O timing e o contexto também importam significativamente. Seguindo tendências históricas de redução de custo no desenvolvimento de IA — que Amodei estima cerca de 4 vezes ao ano — a estrutura de custos da DeepSeek parece estar amplamente no caminho certo ao invés de dramaticamente à frente da curva.
2. DeepSeek-V3, e não R1, foi a verdadeira conquista técnica
Enquanto os mercados e a mídia concentravam-se intensamente no modelo R1 da DeepSeek, Amodei aponta que a inovação mais significativa da empresa veio antes.
“DeepSeek-V3 foi de fato a verdadeira inovação e o que deveria ter chamado a atenção um mês atrás (nós certamente estivemos atentos). Como um modelo pré-treinado, ele parece aproximar-se do desempenho dos modelos americanos de ponta em algumas tarefas importantes, enquanto custa substancialmente menos para treinar.”
A distinção entre V3 e R1 é crucial para entender o verdadeiro avanço tecnológico da DeepSeek. O V3 representou inovações de engenharia genuínas, particularmente na gestão do “cache de chave-valor” e ao empurrar os limites do método de mistura de especialistas (MoE).
Essa percepção ajuda a explicar por que a reação dramática do mercado ao R1 pode ter sido equivocada. O R1 essencialmente acrescentou capacidades de aprendizado por reforço à fundação do V3 — um passo que várias empresas estão atualmente adotando com seus modelos.
3. O investimento total corporativo revela uma imagem diferente
Talvez o aspecto mais revelador da análise de Amodei diga respeito ao investimento total da DeepSeek em desenvolvimento de IA.
“Foi relatado — não podemos ter certeza de que seja verdade — que a DeepSeek na verdade teve 50.000 chips de geração Hopper, que eu chutaria estar dentro de um fator ~2-3X do que as principais empresas de IA dos EUA têm. Esses 50.000 chips Hopper custaram cerca de ~US$ 1 bilhão. Portanto, o total gasto da DeepSeek como empresa (distinto dos gastos para treinar um modelo individual) não é muito diferente dos laboratórios de IA dos EUA.”
Essa revelação muda drasticamente a narrativa em torno da eficiência de recursos da DeepSeek. Embora a empresa possa ter alcançado resultados impressionantes com o treinamento de modelos individuais, seu investimento total no desenvolvimento de IA parece ser aproximadamente comparável ao de seus concorrentes americanos.
A distinção entre custos de treinamento de modelo e investimento corporativo total destaca a importância contínua de recursos substanciais no desenvolvimento de IA. Isso sugere que, apesar de a eficiência de engenharia poder ser aprimorada, permanecer competitivo em IA ainda requer investimento de capital significativo.
4. O atual ‘ponto de cruzamento’ é temporário
Amodei descreve o momento presente no desenvolvimento de IA como único, mas passageiro.
“Portanto, estamos em um interessante ‘ponto de cruzamento’, onde temporariamente várias empresas podem produzir bons modelos de raciocínio,” escreveu ele. “Isso rapidamente deixará de ser verdade à medida que todos avancem mais na curva de escalonamento desses modelos.”
Essa observação fornece um contexto crucial para entender o atual estado da competição em IA. A capacidade de várias empresas de alcançar resultados semelhantes em capacidades de raciocínio representa um fenômeno temporário, em vez de um novo status quo.
As implicações são significativas para o futuro do desenvolvimento de IA. À medida que as empresas continuam a escalar seus modelos, particularmente na área intensiva em recursos do aprendizado por reforço, o campo provavelmente voltará a se diferenciar com base em quem pode investir mais em treinamento e infraestrutura. Isso sugere que, embora a DeepSeek tenha alcançado um marco impressionante, não alterou fundamentalmente a economia de longo prazo do desenvolvimento avançado de IA.
O verdadeiro custo de construir IA: O que a análise de Amodei revela
A análise detalhada de Amodei sobre as conquistas da DeepSeek corta semanas de especulação do mercado para expor a verdadeira economia de construção de sistemas avançados de IA. Sua postagem no blog desmonta sistematicamente tanto o pânico quanto o entusiasmo que seguiram o anúncio da DeepSeek, mostrando como o custo de treinamento de seu modelo de US$ 6 milhões se enquadra dentro do progresso contínuo do desenvolvimento da IA.
Os mercados e a mídia gravitavam em torno de narrativas simples, e a história de uma empresa chinesa subestimando dramaticamente os custos de desenvolvimento de IA nos EUA provou ser irresistível. No entanto, a decomposição de Amodei revela uma realidade mais complexa: o investimento total da DeepSeek, particularmente os reportados US$ 1 bilhão em hardware de computação, espelha os gastos de seus homólogos americanos.
Este momento de paridade de custos entre o desenvolvimento de IA dos EUA e da China marca o que Amodei chama de “ponto de cruzamento” — uma janela temporária onde várias empresas podem alcançar resultados semelhantes. Sua análise sugere que essa janela se fechará à medida que as capacidades de IA avançarem e as demandas de treinamento aumentarem. O campo provavelmente retornará a favorecer organizações com os recursos mais profundos.
Construir IA avançada continua a ser uma empreitada cara, e o exame cuidadoso de Amodei mostra por que medir seu verdadeiro custo requer examinar o pleno escopo do investimento. Sua deconstrução metódica das conquistas da DeepSeek pode acabar sendo mais significativa do que o anúncio inicial que provocou tanta turbulência nos mercados.
Insights diários sobre casos de uso de negócios com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós fornecemos as informações internas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins da VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Ai2 lança o Tülu 3, um modelo totalmente open-source que supera o DeepSeek v3 e o GPT-4o com uma nova abordagem de pós-treinamento.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de liderança no setor. Saiba…
Microsoft lança Surface Pro e Laptop PCs com foco em Copilot, disponíveis com opções Snapdragon e Intel.
[the_ad id="145565"] Na quinta-feira, durante um evento em Nova York, a Microsoft apresentou duas novidades na linha de PCs Surface. O novo Surface Pro e o Surface Laptop…
Rumo a LoRAs que Podem Sobreviver a Atualizações de Versão do Modelo
[the_ad id="145565"] Desde minha cobertura recente sobre o crescimento dos Hunyuan Video LoRAs para hobbyistas (arquivos pequenos e treinados que podem injetar personalidades…