Este artigo faz parte da edição especial da VentureBeat, “AI em Escala: Da Visão à Viabilidade.” Leia mais desta edição especial aqui.
Este artigo faz parte da edição especial da VentureBeat, “AI em Escala: Da Visão à Viabilidade.” Leia mais da edição aqui.
Se você viajar 60 anos no tempo até Stevenson, Alabama, encontrará a Usina Fossil de Widows Creek, uma estação geradora de 1,6 gigawatts com uma das chaminés mais altas do mundo. Hoje, há um centro de dados do Google onde a usina de Widows Creek uma vez esteve. Em vez de operar com carvão, as linhas de transmissão da antiga instalação trazem energia renovável para alimentar os serviços online da empresa.
Essa metamorfose, de uma instalação de combustão de carbono para uma fábrica digital, simboliza uma mudança global para a infraestrutura digital. E estamos prestes a ver a produção de inteligência acelerar graças às fábricas de IA.
Esses centros de dados são motores de tomada de decisão que consomem recursos de computação, rede e armazenamento enquanto convertem informações em insights. Centros de dados densamente empacotados estão nascendo em tempo recorde para satisfazer a demanda insaciável por inteligência artificial.
A infraestrutura para suportar IA herda muitos dos mesmos desafios que definiram fábricas industriais, desde energia até escalabilidade e confiabilidade, exigindo soluções modernas para problemas centenários.
A nova força de trabalho: Potência de computação
Na era do vapor e do aço, trabalho significava milhares de operários operando máquinas dia e noite. Nas fábricas de IA de hoje, a produção é determinada pela potência de computação. Treinar grandes modelos de IA requer recursos de processamento massivos. Segundo Aparna Ramani, VP de engenharia da Meta, o crescimento no treinamento desses modelos é de cerca de um fator de quatro por ano em toda a indústria.
Esse nível de escalonamento está a caminho de criar alguns dos mesmos gargalos que existiam no mundo industrial. Existem restrições na cadeia de suprimentos, para começar. GPus — os motores da revolução da IA — vêm de um punhado de fabricantes. Elas são incrivelmente complexas. Estão em alta demanda. E, portanto, não é surpreendente que estejam sujeitas à volatilidade de custos.
Para evitar algumas dessas limitações de suprimento, grandes nomes como AWS, Google, IBM, Intel e Meta estão projetando seus próprios silícios personalizados. Esses chips são otimizados para energia, desempenho e custo, fazendo deles especialistas com características únicas para suas respectivas cargas de trabalho.
Essa mudança não se resume apenas ao hardware. Também há preocupações sobre como as tecnologias de IA afetarão o mercado de trabalho. Pesquisas publicadas pela Columbia Business School estudaram a indústria de gestão de investimentos e descobriram que a adoção da IA leva a uma redução de 5% na participação do trabalho na renda, espelhando as mudanças observadas durante a Revolução Industrial.
“A IA provavelmente será transformadora para muitos, talvez para todos, os setores da economia,” diz a professora Laura Veldkamp, uma das autoras do artigo. “Estou bastante otimista de que encontraremos emprego útil para muitas pessoas. Mas haverá custos de transição.”
Onde encontraremos a energia para escalar?
Além do custo e da disponibilidade, as GPUs que servem como a força de trabalho das fábricas de IA são notoriamente vorazes em termos de energia. Quando a equipe da xAI trouxe seu cluster supercomputador Colossus online em setembro de 2024, ele tinha acesso a entre sete e oito megawatts da Tennessee Valley Authority. Mas os 100.000 GPUs H100 do cluster precisam de muito mais do que isso. Portanto, a xAI trouxe geradores móveis VoltaGrid para compensar temporariamente a diferença. No início de novembro, a Memphis Light, Gas & Water firmou um acordo mais permanente com a TVA para entregar à xAI uma capacidade adicional de 150 megawatts. No entanto, críticos afirmam que o consumo do local está pressionando a rede da cidade e contribuindo para sua má qualidade do ar. E Elon Musk já tem planos para mais 100.000 GPUs H100/H200 sob o mesmo teto.
Segundo a McKinsey, as necessidades de energia dos centros de dados devem aumentar para aproximadamente três vezes a capacidade atual até o final da década. Ao mesmo tempo, a taxa na qual os processadores estão dobrando sua eficiência de desempenho está diminuindo. Isso significa que o desempenho por watt ainda está melhorando, mas em um ritmo diminuído, e certamente não rápido o suficiente para acompanhar a demanda por força computacional.
Então, o que será necessário para corresponder à adoção frenética das tecnologias de IA? Um relatório do Goldman Sachs sugere que as concessionárias nos EUA precisam investir cerca de US$ 50 bilhões em nova capacidade de geração apenas para apoiar os centros de dados. Analistas também esperam que o consumo de energia dos centros de dados impulsione cerca de 3,3 bilhões de pés cúbicos por dia de nova demanda de gás natural até 2030.
Escalar se torna mais difícil à medida que as fábricas de IA crescem
Treinar os modelos que tornam as fábricas de IA precisas e eficientes pode levar dezenas de milhares de GPUs, todas trabalhando em paralelo, durante meses a fio. Se uma GPU falhar durante o treinamento, a execução deve ser interrompida, restaurada para um ponto de verificação recente e retomada. No entanto, à medida que a complexidade das fábricas de IA aumenta, também aumenta a probabilidade de falhas. Ramani abordou essa preocupação durante uma apresentação AI Infra @ Scale.
“Parar e reiniciar é bastante doloroso. Mas piora pelo fato de que, à medida que o número de GPUs aumenta, também aumenta a probabilidade de uma falha. E, em algum momento, o volume de falhas pode se tornar tão esmagador que perdemos muito tempo mitigando essas falhas e mal conseguimos concluir uma execução de treinamento.”
Segundo Ramani, a Meta está trabalhando em maneiras de detectar falhas mais cedo e de voltar a funcionar mais rapidamente. Mais adiante, a pesquisa sobre treinamento assíncrono pode melhorar a tolerância a falhas enquanto simultaneamente melhora a utilização de GPUs e distribui as execuções de treinamento entre vários centros de dados.
IA sempre ativa mudará a forma como fazemos negócios
Assim como as fábricas do passado dependiam de novas tecnologias e modelos organizacionais para escalar a produção de bens, as fábricas de IA se alimentam de potência de computação, infraestrutura de rede e armazenamento para produzir tokens — a menor parte de informação que um modelo de IA utiliza.
“Esta fábrica de IA está gerando, criando, produzindo algo de grande valor, uma nova mercadoria,” disse o CEO da Nvidia, Jensen Huang, durante sua palestra no Computex 2024. “É completamente fungível em quase todas as indústrias. E é por isso que é uma nova Revolução Industrial.”
A McKinsey afirma que a IA generativa tem o potencial de adicionar o equivalente a US$ 2,6 a 4,4 trilhões em benefícios econômicos anuais em 63 diferentes casos de uso. Em cada aplicação, seja a fábrica de IA hospedada na nuvem, implantada na borda ou gerenciada de forma autônoma, os mesmos desafios de infraestrutura devem ser superados, assim como em uma fábrica industrial. Segundo o mesmo relatório da McKinsey, alcançar mesmo um quarto desse crescimento até o final da década exigirá outra capacidade de 50 a 60 gigawatts em centros de dados, para começar.
No entanto, o resultado desse crescimento está prestes a mudar a indústria de TI de forma indelével. Huang explicou que as fábricas de IA permitirão que a indústria de TI gere inteligência para US$ 100 trilhões de valor industrial. “Isso será uma indústria de manufatura. Não uma indústria de manufatura de computadores, mas usando os computadores na manufatura. Isso nunca aconteceu antes. Algo extraordinário.”
Insights diários sobre casos de uso nos negócios com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos a você informações privilegiadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Runway, conhecida por seus modelos de IA para geração de vídeo, arrecada R$ 308 milhões.
[the_ad id="145565"] Runway, uma startup que desenvolve uma variedade de modelos de IA generativa para a produção de mídia, incluindo modelos de geração de vídeo, levantou US$…
Plataforma de IA de Voz Phonic recebe apoio da Lux
[the_ad id="145565"] A qualidade das vozes geradas por IA é suficientemente boa para criar audiolivros e podcasts, ler artigos em voz alta e oferecer suporte ao cliente básico.…
Como Claude Pensa? A Busca da Anthropic para Desvendar a Caixa-preta da IA
[the_ad id="145565"] Modelos de linguagem de grande escala (LLMs) como Claude mudaram a maneira como usamos a tecnologia. Eles alimentam ferramentas como chatbots, ajudam a…