Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba Mais
Quando o DeepSeek-R1 surgiu pela primeira vez, o medo prevalente que abalava a indústria era que um raciocínio avançado pudesse ser alcançado com menos infraestrutura.
Ao que parece, não é necessariamente o caso. Pelo menos, segundo a Together AI, a ascensão do DeepSeek e do raciocínio de código aberto teve o efeito exatamente oposto: em vez de reduzir a necessidade de infraestrutura, ela a está aumentando.
Esse aumento na demanda ajudou a impulsionar o crescimento da plataforma e dos negócios da Together AI. Hoje, a empresa anunciou uma rodada de financiamento série B de $305 milhões, liderada pela General Catalyst e co-liderada pela Prosperity7. A Together AI surgiu em 2023 com o objetivo de simplificar o uso empresarial de modelos de linguagem de código aberto (LLMs). A empresa se expandiu em 2024 com a plataforma Together Enterprise, que permite a implementação de IA em ambientes de nuvem privada virtual (VPC) e locais. Em 2025, a Together AI está novamente expandindo sua plataforma com clusters de raciocínio e capacidades de IA agente.
A empresa afirma que sua plataforma de implantação de IA possui mais de 450.000 desenvolvedores registrados e que o negócio cresceu 6X no geral anualmente. Os clientes da empresa incluem empresas bem como startups de IA como Krea AI, Captions e Pika Labs.
“Agora estamos atendendo modelos em todas as modalidades: linguagem, raciocínio, imagens, áudio e vídeo”, disse Vipul Prakash, CEO da Together AI, ao VentureBeat.
O enorme impacto do DeepSeek-R1 na demanda por infraestrutura de IA
O DeepSeek-R1 foi extremamente disruptivo quando foi lançado, por várias razões — uma delas foi a implicação de que um modelo de raciocínio de código aberto de ponta poderia ser construído e implantado com menos infraestrutura do que um modelo proprietário.
No entanto, Prakash explicou que a Together AI cresceu sua infraestrutura, em parte, para ajudar a suportar a demanda aumentada por cargas de trabalho relacionadas ao DeepSeek-R1.
“É um modelo bastante caro para realizar inferências”, disse ele. “Ele possui 671 bilhões de parâmetros e você precisa distribuí-lo em vários servidores. E como a qualidade é maior, geralmente há mais demanda no topo, o que significa que você precisa de mais capacidade.”
Além disso, ele observou que o DeepSeek-R1 geralmente tem solicitações de longa duração que podem durar de dois a três minutos. A tremenda demanda do usuário pelo DeepSeek-R1 está impulsionando ainda mais a necessidade de mais infraestrutura.
Para atender a essa demanda, a Together AI lançou um serviço que chama de “clusters de raciocínio” que provisiona capacidade dedicada, variando de 128 a 2.000 chips, para executar modelos com o melhor desempenho possível.
Como a Together AI está ajudando organizações a usar IA de raciocínio
Existem várias áreas específicas onde a Together AI está observando o uso de modelos de raciocínio. Estes incluem:
- Agentes de codificação: Modelos de raciocínio ajudam a dividir problemas maiores em etapas.
- Reducão de alucinações: O processo de raciocínio ajuda a verificar as saídas dos modelos, reduzindo assim alucinações, o que é importante para aplicações onde a precisão é crucial.
- Melhorando modelos não-raciocínio: Clientes estão destilando e melhorando a qualidade de modelos não-raciocínio.
- Permitindo auto-melhorias: O uso de aprendizado por reforço com modelos de raciocínio permite que modelos se auto-melhoram de forma recursiva sem depender de grandes volumes de dados rotulados por humanos.
A IA agente também está impulsionando a demanda aumentada por infraestrutura de IA
A Together AI também está enfrentando um aumento na demanda por infraestrutura à medida que seus usuários adotam IA agente.
Prakash explicou que fluxos de trabalho agente, onde um único pedido de usuário resulta em milhares de chamadas de API para completar uma tarefa, estão colocando mais demanda computacional na infraestrutura da Together AI.
Para ajudar a suportar cargas de trabalho de IA agente, a Together AI adquiriu recentemente CodeSandbox, cuja tecnologia fornece máquinas virtuais (VMs) leves e de inicialização rápida para executar código arbitrário e seguro dentro da nuvem da Together AI, onde os modelos de linguagem também residem. Isso permite à Together AI reduzir a latência entre o código agente e os modelos que precisam ser chamados, melhorando o desempenho dos fluxos de trabalho agente.
Nvidia Blackwell já está tendo um impacto
Todas as plataformas de IA estão enfrentando demandas crescentes.
Essa é uma das razões pelas quais a Nvidia continua lançando novos silícios que oferecem mais desempenho. O último chip de produto da Nvidia é o GPU Blackwell, que agora está sendo implantado na Together AI.
Prakash disse que os chips Nvidia Blackwell custam cerca de 25% a mais do que a geração anterior, mas oferecem 2X o desempenho. A plataforma GB 200 com chips Blackwell é especialmente adequada para treinamento e inferência de modelos de mistura de especialistas (MoE), que são treinados em múltiplos servidores conectados por InfiniBand. Ele observou que os chips Blackwell também devem proporcionar um maior aumento de desempenho para inferência de modelos maiores, em comparação com modelos menores.
O cenário competitivo da IA agente
O mercado de plataformas de infraestrutura de IA é ferozmente competitivo.
A Together AI enfrenta concorrência tanto de provedores de nuvem estabelecidos quanto de startups de infraestrutura de IA. Todos os grandes fornecedores, incluindo Microsoft, AWS e Google, possuem plataformas de IA. Também existe uma categoria emergente de players focados em IA, como Groq e Samba Nova, que estão todos tentando conquistar uma fatia do lucrativo mercado.
A Together AI possui uma oferta de stack completa, incluindo infraestrutura de GPU com camadas de software em cima. Isso permite que os clientes construam facilmente com modelos de código aberto ou desenvolvam seus próprios modelos na plataforma Together AI. A empresa também está focada em pesquisas que desenvolvem otimizações e runtimes acelerados para inferência e treinamento.
“Por exemplo, nós servimos o modelo DeepSeek-R1 a 85 tokens por segundo, enquanto a Azure o serve a 7 tokens por segundo”, disse Prakash. “Há uma disparidade crescente no desempenho e no custo que podemos fornecer aos nossos clientes.”
Insights diários sobre casos de uso comercial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo para você. Nós fornecemos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins informativos do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Disrupt 2025: Os menores preços do ano terminam em 7 dias!
[the_ad id="145565"] Você leu corretamente! As melhores ofertas para ingressos do TechCrunch Disrupt 2025 estão prestes a acabar em apenas 7 dias. Economize até R$ 1.130 nos…
DeepSeek irá tornar pública partes do código de serviços online
[the_ad id="145565"] O laboratório de IA chinês DeepSeek planeja abrir o código de partes de seus serviços online como parte de um evento chamado “semana do código aberto” na…
Candidatar-se para Falar em Sessões: IA antes do prazo final
[the_ad id="145565"] Inovadores em IA, aproveitem o momento! Têm insights que poderiam inspirar 1.200 fundadores, investidores e entusiastas de IA ansiosos para avançar o…