Bolt42

O parceiro geral da Andreessen Horowitz e membro do conselho da Mistral, Anjney “Anj” Midha, foi o primeiro a notar o desempenho impressionante do DeepSeek há seis meses, conforme ele conta ao TechCrunch.

Foi nessa época que o DeepSeek apresentou o Coder V2, que rivalizou com o GPT-4-Turbo da OpenAI em tarefas específicas de codificação, segundo um artigo lançado no ano passado. Isso colocou o DeepSeek em um caminho para lançar modelos aprimorados a cada poucos meses, culminando no R1, disse ele. O R1 é seu novo modelo de raciocínio de código aberto que revolucionou a indústria tecnológica ao oferecer desempenho padrão da indústria por uma fração do custo.

Apesar da venda das ações da Nvidia, Midha afirma que o R1 não significa que os modelos de AI fundamentais deixarão de gastar bilhões para adquirir chips de GPU e construir mais centros de dados o mais rápido possível.

Isso significa que eles farão mais com o poder computacional que podem obter.

“Quando as pessoas dizem: ‘ok Anj, a Mistral levantou um bilhão de dólares’,” diz ele. “Isso significa que o DeepSeek torna todos esses bilhões completamente desnecessários? Na verdade, é extraordinariamente valioso para eles poderem olhar para as melhorias de eficiência do DeepSeek, internalizá-las e, então, usar um bilhão de dólares nisso.”

Ele acrescenta: “Agora podemos obter 10 vezes mais resultado com a mesma computação.”

Isso não significa que a Mistral está completamente atrás de rivais como OpenAI e Anthropic, ele argumenta. Cada uma delas levantou muitos bilhões a mais do que a Mistral. A OpenAI está supostamente em negociações para levantar mais impressionantes $40 bilhões.

A Mistral continua competitiva com elas porque é de código aberto, diz ele. E sua lógica tem mérito. O código aberto dá a uma empresa acesso a uma mão de obra técnica essencialmente gratuita de quem quer ajudar porque usa o projeto. Rivais de código fechado guardam seus segredos e precisam pagar por toda a mão de obra, além do poder computacional.

“Você não precisa de $20 bilhões. Você só precisa de mais computação do que qualquer outro aplicativo de modelo de código aberto. Portanto, a Mistral está bem posicionada. Eles têm a maior computação de qualquer provedor de código aberto,” disse Midha sobre sua empresa do portfólio.

O Llama do Facebook, o maior modelo de AI de código aberto ocidental em rivalidade com a Mistral, também receberá muito mais investimento. O CEO Mark Zuckerberg disse na quarta-feira que ainda planeja gastar “centenas de bilhões de dólares” em AI. Isso inclui $60 bilhões em 2025 em despesas de capital, principalmente para centros de dados.

O programa de compartilhamento de GPU Oxygen da a16z está “superlotado”

Midha, que também é membro do conselho da Black Forest Labs, geradora de imagens AI, e da Luma, criadora de modelos 3D (e um investidor-anjo em empresas de AI como Anthropic, ElevenLabs, entre outras) tem outra razão pela qual não vê a fome da AI por GPUs diminuindo tão cedo.

Ele é o líder do programa Oxygen da a16z. As GPUs, particularmente as H100 de última geração da Nvidia, se tornaram uma commodity tão escassa que a empresa de capital de risco tomou as rédeas da situação há cerca de um ano e meio. Ela comprou um grande número delas para que suas empresas do portfólio pudessem usá-las.

Oxygen está “superlotado neste momento. Eu não consigo alocar o suficiente,” ri Midha. Não apenas suas startups precisam de GPUs para treinar modelos de AI, mas também precisam de ainda mais para rodar seus produtos de AI em andamento para os clientes.

“Agora há uma demanda insaciável por inferência, pelo consumo,” explica ele.

É também por isso que ele acredita que os avanços de engenharia do DeepSeek não mudarão o Stargate, que é a grande parceria de $500 bilhões da OpenAI anunciada no início deste mês com a SoftBank e a Oracle para centros de dados de AI.

A principal mudança que o DeepSeek traz é o reconhecimento pelos estados-nação de que a AI é a próxima infraestrutura fundamental, como eletricidade e a internet. Midha quer que eles considerem a “independência da infraestrutura”, como ele chama. Eles querem depender de modelos chineses, com sua censura e garras em seus dados? Ou eles preferem modelos ocidentais que seguem leis e ética ocidentais e cumprem acordos da OTAN?

Ele está obviamente defendendo que as nações ocidentais usem modelos ocidentais, como a Mistral, com sede em Paris. Centenas de empresas compartilham essa preocupação e já bloquearam o DeepSeek, que é tanto um serviço de aplicativo para consumidores quanto um modelo de código aberto.

Nem todos acreditam nesse medo dos modelos de código aberto chineses. As empresas podem executá-los localmente em seus próprios centros de dados. E o DeepSeek já está disponível como um serviço em nuvem seguro de empresas americanas como Microsoft Azure Foundry, para que os desenvolvedores não precisem usar o serviço em nuvem do DeepSeek.

Na verdade, o ex-CEO da Intel, Pat Gelsinger — alguém muito familiarizado com a China — disse ao TechCrunch que sua startup Gloo está construindo serviços de chat de AI em sua própria versão do DeepSeek R1, em vez de opções como Llama ou OpenAI.

Mas se alguém quiser desistir de seus planos de centro de dados à luz do DeepSeek, Midha ri e faz um pedido: “Se você tiver GPUs sobrando, por favor, envie-as para o Anj.”

O TechCrunch tem um boletim informativo focado em AI! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.


    cinco + dez =

    Bolt42