Bolt42

Durante sua conferência Cloud Next esta semana, o Google revelou a mais recente geração de seu chip acelerador de IA TPU.

O novo chip, chamado Ironwood, é o TPU de sétima geração do Google e é o primeiro otimizado para inferência — ou seja, para rodar modelos de IA. Programado para ser lançado em algum momento ainda este ano para clientes do Google Cloud, o Ironwood estará disponível em duas configurações: um cluster de 256 chips e um cluster de 9.216 chips.

“O Ironwood é nosso TPU mais poderoso, capaz e eficiente em termos de energia até agora”, escreveu Amin Vahdat, VP do Google Cloud, em um post de blog fornecido ao TechCrunch. “E é projetado especificamente para impulsionar modelos de IA inferenciais em larga escala.”

O Ironwood chega em um momento em que a competição no espaço dos aceleradores de IA se intensifica. A Nvidia pode ter a liderança, mas gigantes da tecnologia, incluindo Amazon e Microsoft, estão promovendo suas próprias soluções internas. A Amazon possui seus processadores Trainium, Inferentia e Graviton, disponíveis através da AWS, e a Microsoft oferece instâncias do Azure para seu chip de IA Cobalt 100.

Google Ironwood TPU
Créditos da Imagem:Google

O Ironwood pode fornecer 4.614 TFLOPs de poder computacional em pico, de acordo com a avaliação interna do Google. Cada chip possui 192 GB de RAM dedicada com largura de banda próxima a 7,4 Tbps.

O Ironwood tem um núcleo especializado aprimorado, chamado SparseCore, para processar tipos de dados comuns em cargas de trabalho de “classificação avançada” e “recomendação” (por exemplo, um algoritmo que sugere roupas que você pode gostar). A arquitetura do TPU foi projetada para minimizar o movimento de dados e a latência dentro do chip, resultando em economia de energia, segundo o Google.

O Google planeja integrar o Ironwood com seu Hipercaminho de IA, um cluster modular de computação no Google Cloud, em um futuro próximo, acrescentou Vahdat.

“O Ironwood representa um avanço único na era da inferência,” disse Vahdat, “com aumento do poder computacional, capacidade de memória, […] avanços de rede e confiabilidade.”


    quatro × dois =

    Bolt42