Bolt42

Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdos exclusivos sobre coberturas de IA líderes na indústria. Saiba mais


No recente evento Nvidia GTC, a empresa revelou o que descreveu como o primeiro sistema de servidores em um único rack capaz de realizar um exaflop — um bilhão de bilhões, ou um quintilhão, de operações de ponto flutuante (FLOPS) por segundo. Essa inovação é baseada no mais recente sistema GB200 NVL72, que incorpora as novas unidades de processamento gráfico (GPUs) Blackwell da Nvidia. Um rack de computador padrão tem cerca de 1,80 metros de altura, pouco mais de 90 cm de profundidade e menos de 60 cm de largura.

Reduzindo um exaflop: De Frontier a Blackwell

Duas coisas sobre o anúncio chamaram minha atenção. Primeiro, o primeiro computador capaz de exaflop do mundo foi instalado há apenas alguns anos, em 2022, no Laboratório Nacional Oak Ridge. Para efeito de comparação, o supercomputador “Frontier”, construído pela HPE e alimentado por CPUs e GPUs AMD, originalmente consistia em 74 racks de servidores. O novo sistema da Nvidia alcançou aproximadamente 73X maior densidade de desempenho em apenas três anos, equivalente a um triplo de desempenho a cada ano. Esse avanço reflete um progresso notável na densidade de computação, eficiência energética e design arquitetônico.

Em segundo lugar, deve-se ressaltar que, embora ambos os sistemas tenham atingido o marco da exascale, eles foram projetados para enfrentar desafios diferentes; um otimizado para velocidade, o outro para precisão. A especificação de exaflop da Nvidia é baseada em matemática de menor precisão — especificamente operações de ponto flutuante de 4 bits e 8 bits — consideradas ideais para cargas de trabalho de IA, incluindo tarefas como treinamento e execução de grandes modelos de linguagem (LLMs). Esses cálculos priorizam a velocidade em vez da precisão. Em contraste, a classificação de exaflop do Frontier foi alcançada utilizando matemática de precisão dupla de 64 bits, o padrão de ouro para simulações científicas onde a precisão é crítica.

Viemos longe (muito rapidamente)

Esse nível de progresso parece quase inacreditável, especialmente ao lembrar do estado da arte quando comecei minha carreira na indústria de computação. Meu primeiro emprego profissional foi como programador na DEC KL 1090. Essa máquina, parte da série PDP-10 da DEC, oferecia 1,8 milhão de instruções por segundo (MIPS). Além do desempenho da CPU, a máquina se conectava a telas de tubo de raios catódicos (CRT) por meio de cabos fixos. Não havia capacidades gráficas, apenas texto claro em um fundo escuro. E, claro, não havia Internet. Usuários remotos conectavam-se por linhas telefônicas usando modems com velocidades de até 1.200 bits por segundo.

DEC System 10; Fonte: Por Joe Mabel, CC BY-SA 3.0.

500 bilhões de vezes mais computação

Embora comparar MIPS a FLOPS forneça uma noção geral de progresso, é importante lembrar que essas métricas medem diferentes cargas de trabalho informáticas. MIPS reflete a velocidade de processamento de inteiros, que é útil para computação de propósito geral, especialmente em aplicações comerciais. FLOPS mede o desempenho de ponto flutuante que é crucial para cargas de trabalho científicas e o pesado processamento de dados por trás da IA moderna, como a matemática matricial e a álgebra linear usadas para treinar e executar modelos de aprendizado de máquina (ML).

Embora não seja uma comparação direta, a diferença maciça entre MIPS de então e FLOPS de agora fornece uma ilustração poderosa do rápido crescimento no desempenho computacional. Usando estas como uma heurística aproximada para medir o trabalho realizado, o novo sistema da Nvidia é aproximadamente 500 bilhões de vezes mais poderoso do que a máquina DEC. Esse tipo de salto exemplifica o crescimento exponencial do poder computacional ao longo de uma única carreira profissional e levanta a questão: Se esse progresso é possível em 40 anos, o que os próximos 5 anos podem trazer?

A Nvidia, por sua vez, ofereceu algumas pistas. Na GTC, a empresa compartilhou um roteiro prevendo que seu sistema de rack completo de próxima geração, baseado na arquitetura Ultra “Vera Rubin”, proporcionará 14X o desempenho do rack Blackwell que está sendo enviado este ano, alcançando entre 14 e 15 exaflops em trabalho otimizado para IA nos próximos um ou dois anos.

Igualmente notável é a eficiência. Alcançar esse nível de desempenho em um único rack significa menos espaço físico por unidade de trabalho, menos materiais e potencialmente menor uso de energia por operação, embora as demandas absolutas de potência desses sistemas continuem imensas.

A IA realmente precisa de todo esse poder computacional?

Embora tais ganhos de desempenho sejam de fato impressionantes, a indústria de IA agora enfrenta uma pergunta fundamental: Quanto poder computacional é realmente necessário e a que custo? A corrida para construir novos enormes data centers de IA é impulsionada pelas crescentes demandas da computação exascale e por modelos de IA cada vez mais capazes.

O esforço mais ambicioso é o Projeto Stargate, que prevê 20 data centers em todo os EUA, cada um com uma área de meio milhão de pés quadrados. Uma onda de outros projetos hyperscale está em andamento ou em estágio de planejamento em todo o mundo, à medida que empresas e países se apressam para garantir que tenham a infraestrutura para suportar as cargas de trabalho de IA do futuro.

Alguns analistas agora se preocupam que podemos estar excedendo a capacidade dos data centers de IA. A preocupação aumentou após o lançamento do R1, um modelo de raciocínio da chinesa DeepSeek, que requer significativamente menos computação do que muitos de seus pares. A Microsoft, posteriormente, cancelou contratos com vários provedores de data centers, levantando especulações de que ela pode estar recalibrando suas expectativas para a demanda futura por infraestrutura de IA.

No entanto, The Register sugeriu que essa retração pode ter mais a ver com alguns dos data centers planejados não tendo capacidade robusta suficiente para suportar as necessidades de energia e refrigeração dos sistemas de IA de próxima geração. Já, os modelos de IA estão empurrando os limites do que a infraestrutura atual pode suportar. O MIT Technology Review relatou que esta pode ser a razão pela qual muitos data centers na China estão enfrentando dificuldades e falhando, pois foram construídos com especificações que não são ideais para a necessidade atual, quanto mais para as dos próximos anos.

Inference de IA exige mais FLOPs

Modelos de raciocínio realizam a maior parte de seu trabalho em tempo de execução por meio de um processo conhecido como inferência. Esses modelos alimentam algumas das aplicações mais avançadas e intensivas em recursos hoje, incluindo assistentes de pesquisa aprofundada e a nova onda de sistemas de IA agentes.

Enquanto o DeepSeek-R1 inicialmente assustou a indústria ao pensar que a futura IA poderia exigir menos poder computacional, o CEO da Nvidia, Jensen Huang, rebateu fortemente. Falando à CNBC, ele contestou essa percepção: “Foi a exata conclusão oposta que todos tiveram.” Ele acrescentou que a IA de raciocínio consome 100X mais computação do que a IA não-raciocínio.

À medida que a IA continua a evoluir de modelos de raciocínio para agentes autônomos e além, a demanda por computação provavelmente aumentará novamente. Os próximos avanços podem não vir apenas na linguagem ou visão, mas na coordenação de agentes de IA, simulações de fusão ou mesmo gêmeos digitais de grande escala, cada um possibilitado pelo tipo de salto de capacidade computacional que acabamos de testemunhar.

Certamente em sintonia, a OpenAI anunciou recentemente US$ 40 bilhões em novo financiamento, a maior rodada de financiamento da tecnologia privada até agora. A empresa afirmou em um postagem no blog que o financiamento “permite que continuemos a expandir as fronteiras da pesquisa em IA, dimensionar nossa infraestrutura de computação e oferecer ferramentas cada vez mais poderosas para os 500 milhões de pessoas que usam o ChatGPT toda semana.”

Por que tanto capital está fluindo para a IA? As razões variam desde competitividade até segurança nacional. Embora um fator particular se destaque, como exemplificado por um título da McKinsey: “A IA poderia aumentar os lucros corporativos em US$ 4 trilhões por ano.”

O que vem a seguir? É um palpite de qualquer um

No seu núcleo, sistemas de informação são sobre abstrair complexidade, seja através de um sistema de roteamento de veículos de emergência que escrevi uma vez em Fortran, uma ferramenta de relatório de desempenho estudantil construída em COBOL ou sistemas modernos de IA acelerando a descoberta de medicamentos. O objetivo sempre foi o mesmo: fazer mais sentido do mundo.

Agora, com a poderosa IA começando a aparecer, estamos cruzando um limiar. Pela primeira vez, podemos ter o poder computacional e a inteligência para enfrentar problemas que estavam além do alcance humano.

O colunista do New York Times, Kevin Roose capturou recentemente bem esse momento: “Toda semana, conheço engenheiros e empreendedores que trabalham com IA que me dizem que a mudança — grande mudança, uma mudança que abalará o mundo, o tipo de transformação que nunca vimos antes — está prestes a acontecer.” E isso sem contar as inovações que chegam a cada semana.

Apenas nos últimos dias, vimos a geração de imagens quase perfeitas a partir de texto pela GPT-4o da OpenAI, o Google lançar o que pode ser o modelo de raciocínio mais avançado até agora, o Gemini 2.5 Pro, e a Runway revelar um modelo de vídeo com consistência de personagem e cena de tomada para tomada, algo que o VentureBeat observa que tem eludido a maioria dos geradores de vídeo de IA até agora.

O que vem a seguir é verdadeiramente um palpite. Não sabemos se a poderosa IA será um avanço ou um colapso, se ajudará a resolver a energia de fusão ou desencadeará novos riscos biológicos. Mas com cada vez mais FLOPS se tornando disponíveis nos próximos cinco anos, uma coisa parece certa: a inovação virá rapidamente — e com força. Está claro, também, que à medida que os FLOPS aumentam, também devem aumentar nossas conversas sobre responsabilidade, regulação e contenção.

Gary Grossman é EVP da prática de tecnologia da Edelman e líder global do Centro de Excelência em IA da Edelman.





    dois × quatro =




    Bolt42