Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba Mais


O cenário da IA continua a evoluir rapidamente, com desenvolvimentos recentes desafiando paradigmas estabelecidos. No início de 2025, o laboratório de IA chinês DeepSeek revelou um novo modelo que causou um efeito de choque na indústria de IA e resultou em uma queda de 17% nas ações da Nvidia, junto com outras ações relacionadas à demanda de centros de dados de IA. Essa reação do mercado foi amplamente relatada como decorrente da aparente capacidade do DeepSeek de oferecer modelos de alto desempenho a uma fração do custo dos rivais nos EUA, gerando discussões sobre as implicações para os centros de dados de IA.

Para contextualizar a disrupção do DeepSeek, acreditamos que seja útil considerar uma mudança mais ampla no cenário da IA impulsionada pela escassez de dados adicionais de treinamento. Como os principais laboratórios de IA já treinaram seus modelos na maior parte dos dados públicos disponíveis na internet, a escassez de dados está retardando novas melhorias na pré-treinamento. Como resultado, os fornecedores de modelos estão buscando o “cálculo em tempo de teste” (TTC), onde modelos de raciocínio (como a série de modelos “o” da Open AI) “pensam” antes de responder a uma pergunta no momento da inferência, como um método alternativo para melhorar o desempenho geral do modelo. O pensamento atual é que o TTC pode apresentar melhorias nos padrões de escalabilidade semelhantes àquelas que outrora impulsionaram o pré-treinamento, potencialmente permitindo a próxima onda de avanços transformadores em IA.

Esses desenvolvimentos indicam duas mudanças significativas: Primeiro, laboratórios operando com orçamentos menores (reportados) agora são capazes de lançar modelos de ponta. A segunda mudança é o foco no TTC como o próximo potencial motor de progresso em IA. Abaixo, analisamos ambas as tendências e as potenciais implicações para o cenário competitivo e o mercado mais amplo de IA.

Implicações para a indústria de IA

Acreditamos que a mudança em direção ao TTC e a crescente concorrência entre modelos de raciocínio possam ter uma série de implicações para o cenário mais amplo da IA em hardware, plataformas de nuvem, modelos fundamentais e software corporativo.

1. Hardware (GPUs, chips dedicados e infraestrutura de computação)

  • De clusters de treinamento massivos a picos de “tempo de teste” sob demanda: Em nossa visão, a mudança em direção ao TTC pode ter implicações para o tipo de recursos de hardware que as empresas de IA requerem e como eles são gerenciados. Em vez de investir em clusters de GPU cada vez maiores dedicados a cargas de trabalho de treinamento, as empresas de IA podem aumentar seus investimentos em capacidades de inferência para apoiar as crescentes necessidades de TTC. Embora as empresas de IA provavelmente ainda exijam um grande número de GPUs para lidar com cargas de trabalho de inferência, as diferenças entre cargas de trabalho de treinamento e de inferência podem impactar como esses chips são configurados e usados. Especificamente, uma vez que as cargas de trabalho de inferência tendem a ser mais dinâmicas (e “espinhosas”), o planejamento de capacidade pode se tornar mais complexo do que é para cargas de trabalho de treinamento orientadas por lotes.
  • Ascensão de hardware otimizado para inferência: Acreditamos que a mudança de foco em direção ao TTC provavelmente aumentará as oportunidades para hardware alternativo de IA que se especializa em computação de inferência de baixa latência. Por exemplo, podemos ver uma maior demanda por alternativas de GPU, como circuitos integrados de aplicação específica (ASICs) para inferência. À medida que o acesso ao TTC se torna mais importante do que a capacidade de treinamento, o domínio das GPUs de propósito geral, que são utilizadas tanto para treinamento quanto para inferência, pode diminuir. Essa mudança pode beneficiar fornecedores de chips de inferência especializados.

2. Plataformas de Nuvem: Hyperscalers (AWS, Azure, GCP) e Computação em Nuvem

  • A qualidade do serviço (QoS) torna-se um diferenciador chave: Um dos problemas que impede a adoção de IA nas empresas, além das preocupações em relação à precisão do modelo, é a falta de confiabilidade das APIs de inferência. Problemas associados à inferência de API não confiável incluem tempos de resposta flutuantes, limitação de taxa e dificuldade em gerenciar solicitações simultâneas e adaptar-se às mudanças de ponto final da API. O aumento do TTC pode agravar ainda mais esses problemas. Nessas circunstâncias, um provedor de nuvem capaz de fornecer modelos com garantias de QoS que abordem esses desafios teria, em nossa visão, uma vantagem significativa.
  • Aumento dos gastos com nuvem, apesar dos ganhos de eficiência: Em vez de reduzir a demanda por hardware de IA, é possível que abordagens mais eficientes para o treinamento e a inferência de modelos de linguagem de grande escala (LLM) sigam o Paradoxo de Jevons, uma observação histórica onde melhorias na eficiência impulsionam o consumo geral mais elevado. Nesse caso, modelos de inferência eficientes podem encorajar mais desenvolvedores de IA a aproveitar modelos de raciocínio, o que, por sua vez, aumenta a demanda por computação. Acreditamos que os avanços recentes dos modelos podem levar a um aumento na demanda por computação em nuvem de IA tanto para inferência de modelos quanto para treinamento de modelos menores e especializados.

3. Fornecedores de modelos fundamentais (OpenAI, Anthropic, Cohere, DeepSeek, Mistral)

  • Impacto em modelos pré-treinados: Se novos players como DeepSeek conseguem competir com laboratórios de IA de ponta a uma fração dos custos reportados, modelos pré-treinados proprietários podem se tornar menos defensáveis como uma barreira. Podemos também esperar mais inovações em TTC para modelos transformers e, como o DeepSeek demonstrou, essas inovações podem vir de fontes fora dos laboratórios de IA mais estabelecidos.

4. Adoção de IA em Empresas e SaaS (Camada de Aplicação)

  • Preocupações de segurança e privacidade: Dadas as origens do DeepSeek na China, é provável que haja uma vigilância contínua dos produtos da empresa sob a perspectiva de segurança e privacidade. Em particular, as ofertas de API e chatbot baseadas na China da empresa são improváveis de serem amplamente utilizadas por clientes de IA empresariais nos EUA, Canadá ou em outros países ocidentais. Muitas empresas estão, segundo relatos, bloqueando o uso do site e das aplicações do DeepSeek. Esperamos que os modelos do DeepSeek enfrentem um exame cuidadoso mesmo quando hospedados por terceiros nos EUA e em outros centros de dados ocidentais, o que pode limitar a adoção empresarial dos modelos. Pesquisadores já estão apontando para exemplos de preocupações de segurança em torno do jailbreaking, preconceito e geração de conteúdo prejudicial. Dada a atenção do consumidor, podemos ver experimentação e avaliação dos modelos do DeepSeek nas empresas, mas é improvável que os compradores empresariais deixem de lado os incumbentes devido a essas preocupações.
  • A especialização vertical ganha força: No passado, as aplicações verticais que usam modelos fundamentais se concentraram principalmente em criar fluxos de trabalho projetados para necessidades empresariais específicas. Técnicas como geração aumentada por recuperação (RAG), roteamento de modelo, chamadas de função e guardrails desempenharam um papel importante na adaptação de modelos generalizados para esses casos de uso especializados. Embora essas estratégias tenham levado a sucessos notáveis, houve preocupações persistentes de que melhorias significativas nos modelos subjacentes poderiam tornar essas aplicações obsoletas. Como Sam Altman advertiu, um grande avanço nas capacidades do modelo poderia “atropelar inovações na camada de aplicação” que são construídas como envoltórios em torno de modelos fundamentais.

No entanto, se os avanços no cálculo em tempo de treinamento realmente estão se estagnando, a ameaça de deslocamento rápido diminui. Em um mundo onde os ganhos no desempenho do modelo vêm de otimizações de TTC, novas oportunidades podem se abrir para players da camada de aplicativos. Inovações em algoritmos pós-treinamento específicos de domínio — como otimização de prompt estruturada, estratégias de raciocínio conscientes da latência e técnicas de amostragem eficientes — podem fornecer melhorias significativas de desempenho dentro de verticais direcionadas.

Qualquer melhoria de desempenho seria especialmente relevante no contexto de modelos focados em raciocínio como o GPT-4o da OpenAI e o DeepSeek-R1, que muitas vezes apresentam tempos de resposta de vários segundos. Em aplicações em tempo real, reduzir a latência e melhorar a qualidade da inferência dentro de um determinado domínio pode proporcionar uma vantagem competitiva. Como resultado, empresas da camada de aplicativos com conhecimento de domínio podem desempenhar um papel fundamental na otimização da eficiência da inferência e no ajuste dos resultados.

O DeepSeek demonstra uma ênfase decrescente em quantidades cada vez maiores de pré-treinamento como o único motor da qualidade do modelo. Em vez disso, o desenvolvimento sublinha a crescente importância do TTC. Embora a adoção direta dos modelos do DeepSeek em aplicações de software empresarial permaneça incerta devido à vigilância contínua, seu impacto em impulsionar melhorias em outros modelos existentes está se tornando mais claro.

Acreditamos que os avanços do DeepSeek levaram laboratórios de IA estabelecidos a incorporar técnicas semelhantes em seus processos de engenharia e pesquisa, complementando suas vantagens de hardware existentes. A redução resultante nos custos dos modelos, como previsto, parece estar contribuindo para o aumento do uso de modelos, alinhando-se aos princípios do Paradoxo de Jevons.

Pashootan Vaezipoor é o líder técnico da Georgian.





    dezoito − 8 =




    Bolt42