Bolt42

Por anos, Elon Musk falou sobre o Dojo — o supercomputador de IA que será a pedra angular das ambições de IA da Tesla. É tão importante para Musk que, em julho de 2024, ele declarou que a equipe de IA da empresa iria “intensificar” os esforços no Dojo antes da revelação do robotaxi da Tesla, que ocorreu em outubro.

Mas o que exatamente é o Dojo? E por que ele é tão crítico para a estratégia de longo prazo da Tesla?

Em resumo: o Dojo é o supercomputador desenvolvido sob medida pela Tesla, projetado para treinar suas redes neurais de “Condução Autônoma Completa” (Full Self-Driving – FSD). O fortalecimento do Dojo vai de mãos dadas com o objetivo da Tesla de alcançar a condução autônoma total e trazer um robotaxi ao mercado. O FSD, disponível em centenas de milhares de veículos Tesla hoje, pode realizar algumas tarefas de condução automatizada, mas ainda requer que um humano esteja atento ao volante.

A revelação do Cybercab da Tesla já passou, e agora a empresa está se preparando para lançar um serviço de transporte autônomo usando sua própria frota de veículos em Austin neste junho. Durante sua chamada de ganhos do quarto trimestre e do ano completo de 2024, no final de janeiro, a Tesla também afirmou que pretende lançar o FSD não supervisionado para clientes dos EUA em 2025.

A retórica anterior de Musk era de que o Dojo seria a chave para alcançar o objetivo da Tesla de condução autônoma total. Agora que a Tesla parece estar próxima de atingir esse objetivo, Musk tem sido reservado sobre o Dojo.

Em vez disso, desde agosto de 2024, as conversas têm girado em torno do Cortex, o “gigante novo supercluster de treinamento de IA sendo construído na sede da Tesla em Austin para resolver a IA do mundo real.” Musk também disse que terá “armazenamento massivo para treinamento em vídeo do FSD e do Optimus.”

Em o relatório de acionistas do Q4 da Tesla, a empresa compartilhou atualizações sobre o Cortex, mas nada sobre o Dojo.

A Tesla se posicionou para gastar muito em IA e Dojo — e agora Cortex — para alcançar seu objetivo de autonomia tanto para carros quanto para robôs humanoides. O futuro sucesso da Tesla depende realmente de sua capacidade de concretizar isso, dado o aumento da concorrência no mercado de VE. Portanto, vale a pena dar uma olhada mais de perto no Dojo, no Cortex e em como tudo isso se encontra hoje.

A história do Dojo da Tesla

Créditos da Imagem:SUZANNE CORDEIRO/AFP via Getty Images / Getty Images

Musk não quer que a Tesla seja apenas um fabricante de automóveis ou mesmo um fornecedor de painéis solares e sistemas de armazenamento de energia. Em vez disso, ele quer que a Tesla seja uma empresa de IA, uma que tenha decifrado o código para carros autônomos imitando a percepção humana.

A maioria das outras empresas que desenvolvem tecnologia de veículos autônomos depende de uma combinação de sensores para perceber o mundo — como lidar, radar e câmeras — bem como mapas de alta definição para localizar o veículo. A Tesla acredita que pode alcançar a condução totalmente autônoma contando apenas com câmeras para capturar dados visuais e, em seguida, usar redes neurais avançadas para processar esses dados e tomar decisões rápidas sobre como o carro deve se comportar.

Como disse o antigo chefe de IA da Tesla, Andrej Karpathy, no primeiro Dia da IA da montadora em 2021, a empresa está basicamente tentando construir “um animal sintético do zero”. (Musk já havia insinuado o Dojo desde 2019, mas a Tesla anunciou oficialmente no Dia da IA.)

Empresas como a Waymo da Alphabet comercializaram veículos autônomos de Nível 4 — que a SAE define como um sistema que pode dirigir-se sem a necessidade de intervenção humana sob certas condições — através de uma abordagem mais tradicional de sensores e aprendizado de máquina. A Tesla ainda não produziu um sistema autônomo que não exija um humano ao volante.

Cerca de 1,8 milhão de pessoas pagaram o preço elevado da assinatura do FSD da Tesla, que atualmente custa $8.000 e já foi precificado em até $15.000. A proposta é que o software de IA treinado no Dojo será eventualmente disponibilizado para os clientes da Tesla através de atualizações over-the-air. A escala do FSD também significa que a Tesla foi capaz de acumular milhões de milhas de filmagens em vídeo que usa para treinar o FSD. A ideia é que quanto mais dados a Tesla puder coletar, mais próxima a montadora estará de realmente alcançar a condução totalmente autônoma.

No entanto, alguns especialistas da indústria afirmam que pode haver um limite para a abordagem de força bruta de despejar mais dados em um modelo e esperar que ele fique mais inteligente.

“Em primeiro lugar, há uma restrição econômica, e em breve isso ficará muito caro para fazer”, disse Anand Raghunathan, professor de engenharia elétrica e computação do Vale do Silício na Purdue University, ao TechCrunch. Além disso, ele disse: “Algumas pessoas afirmam que podemos realmente ficar sem dados significativos para treinar os modelos. Mais dados não significam necessariamente mais informações, então depende de se esses dados contêm informações úteis para criar um modelo melhor, e se o processo de treinamento consegue realmente destilar essas informações em um modelo melhor.”

Raghunathan disse que, apesar dessas dúvidas, a tendência de mais dados parece estar aqui, pelo menos a curto prazo. E mais dados significam mais poder computacional necessário para armazenar e processar tudo isso para treinar os modelos de IA da Tesla. É aqui que entra o Dojo, o supercomputador.

O que é um supercomputador?

O Dojo é o sistema de supercomputador da Tesla projetado para funcionar como um campo de treinamento para IA, especificamente para o FSD. O nome é uma referência ao espaço onde as artes marciais são praticadas.

Um supercomputador é composto por milhares de pequenos computadores chamados nós. Cada um desses nós possui seu próprio CPU (unidade central de processamento) e GPU (unidade de processamento gráfico). O primeiro é responsável pela gestão geral do nó, enquanto o segundo realiza as tarefas complexas, como dividir tarefas em várias partes e trabalhar nelas simultaneamente. As GPUs são essenciais para operações de aprendizado de máquina, como as que alimentam o treinamento do FSD em simulação. Elas também formam a base de grandes modelos de linguagem, razão pela qual o crescimento da IA generativa fez da Nvidia a empresa mais valiosa do planeta.

A Tesla até compra GPUs da Nvidia para treinar sua IA (mais sobre isso depois).

Por que a Tesla precisa de um supercomputador?

A abordagem exclusiva de visão da Tesla é a principal razão pela qual a Tesla precisa de um supercomputador. As redes neurais por trás do FSD são treinadas em enormes volumes de dados de condução para reconhecer e classificar objetos ao redor do veículo e, em seguida, tomar decisões de condução. Isso significa que, quando o FSD está ativado, as redes neurais devem coletar e processar dados visuais continuamente em velocidades que correspondem às capacidades de reconhecimento de profundidade e velocidade de um humano.

Em outras palavras, a Tesla pretende criar um duplicado digital do córtex visual humano e da função cerebral.

Para alcançar esse objetivo, a Tesla precisa armazenar e processar todos os dados de vídeo coletados de seus carros ao redor do mundo e executar milhões de simulações para treinar seu modelo com esses dados.

A Tesla parece depender da Nvidia para alimentar seu atual computador de treinamento Dojo, mas não quer colocar todas as suas apostas em uma única cesta – especialmente porque os chips da Nvidia são caros. A Tesla também espera fazer algo melhor que aumente a largura de banda e diminua as latências. É por isso que a divisão de IA da montadora decidiu desenvolver seu próprio programa de hardware personalizado que visa treinar modelos de IA de forma mais eficiente do que os sistemas tradicionais.

No núcleo desse programa estão os chips D1 da Tesla, que a empresa afirma serem otimizados para cargas de trabalho de IA.

Conte-me mais sobre esses chips

Ganesh Venkataramanan, ex-diretor sênior de hardware do Autopilot, apresentando o tile de treinamento D1 no Dia da IA da Tesla em 2021.
Ganesh Venkataramanan, ex-diretor sênior de hardware do Autopilot, apresentando o tile de treinamento D1 no Dia da IA da Tesla em 2021.Créditos da Imagem:Tesla/captura do evento transmitido

A Tesla compartilha da mesma opinião da Apple ao acreditar que hardware e software devem ser projetados para trabalhar juntos. É por isso que a Tesla está trabalhando para se afastar do hardware padrão de GPU e projetar seus próprios chips para alimentar o Dojo.

A Tesla revelou seu chip D1, um quadrado de silício do tamanho da palma da mão, no Dia da IA de 2021. O D1 entrou em produção em maio deste ano, pelo menos. A Taiwan Semiconductor Manufacturing Company (TSMC) está fabricando os chips usando nós semicondutores de 7 nanômetros. O D1 possui 50 bilhões de transistores e um grande tamanho de die de 645 milímetros quadrados, segundo a Tesla. Isso tudo significa que o D1 promete ser extremamente poderoso e eficiente, capaz de lidar rapidamente com tarefas complexas.

“Podemos fazer computação e transferências de dados simultaneamente, e nosso ISA personalizado, que é a arquitetura de conjunto de instruções, é totalmente otimizado para cargas de trabalho de aprendizado de máquina,” disse Ganesh Venkataramanan, ex-diretor sênior de hardware do Autopilot, no Dia da IA da Tesla em 2021. “Isto é aprendizado de máquina puro.”

Entretanto, o D1 ainda não é tão poderoso quanto o chip A100 da Nvidia, que também é fabricado pela TSMC usando um processo de 7 nanômetros. O A100 contém 54 bilhões de transistores e tem um tamanho de die de 826 milímetros quadrados, portanto, tem um desempenho ligeiramente superior ao D1 da Tesla.

Para obter uma largura de banda maior e mais poder de computação, a equipe de IA da Tesla fundiu 25 chips D1 em um único tile para funcionar como um sistema computacional unificado. Cada tile tem um poder de computação de 9 petaflops e 36 terabytes por segundo de largura de banda, e contém todo o hardware necessário para alimentação, refrigeração e transferência de dados. Você pode pensar no tile como um computador autônomo composto por 25 computadores menores. Seis desses tiles compõem uma rack, e duas racks compõem um armário. Dez armários constituem um ExaPOD. No Dia da IA de 2022, a Tesla afirmou que o Dojo poderia ser escalado implantando múltiplos ExaPODs. Tudo isso juntos compõe o supercomputador.

A Tesla também está trabalhando em um chip D2 de próxima geração que visa resolver gargalos de fluxo de informações. Em vez de conectar os chips individuais, o D2 colocaria todo o tile do Dojo em uma única lasca de silício.

A Tesla não confirmou quantos chips D1 pediu ou espera receber. A empresa também não forneceu um cronograma sobre quanto tempo levará para colocar os supercomputadores Dojo em funcionamento com os chips D1.

Em resposta a um post de junho no X que dizia: “Elon está construindo um enorme cooler de GPU no Texas,” Musk respondeu que a Tesla estava almejando “metade do hardware de IA da Tesla, metade da Nvidia/outras” ao longo dos próximos 18 meses. O “outras” poderia ser chips da AMD, segundo o comentário de Musk em janeiro.

O que o Dojo significa para a Tesla?

O robô humanoide Optimus Prime II da Tesla no WAIC em Xangai, China, em 7 de julho de 2024.Créditos da Imagem:Costfoto/NurPhoto / Getty Images

Assumir o controle de sua própria produção de chips significa que a Tesla pode, um dia, adicionar rapidamente grandes quantidades de poder computacional aos programas de treinamento de IA a baixo custo, especialmente à medida que a Tesla e a TSMC aumentam a produção dos chips.

Isso também significa que a Tesla pode não precisar depender dos chips da Nvidia no futuro, que estão se tornando cada vez mais caros e difíceis de garantir.

Durante a chamada de ganhos do segundo trimestre da Tesla, Musk afirmou que a demanda por hardware da Nvidia é “tão alta que muitas vezes é difícil obter as GPUs.” Ele disse que estava “bastante preocupado em realmente conseguir GPUs de forma consistente quando as queremos, e eu acho que, portanto, isso requer que coloquemos muito mais esforço no Dojo para garantir que temos a capacidade de treinamento que precisamos.”

Dito isso, a Tesla ainda está comprando chips da Nvidia hoje para treinar sua IA. Em junho, Musk postou no X:

“Dos aproximadamente $10B em despesas relacionadas à IA que mencionei, cerca da metade é interna, principalmente o computador de inferência de IA projetado pela Tesla e sensores presentes em todos os nossos carros, além do Dojo. Para construir os superclusters de treinamento de IA, o hardware da Nvidia representa cerca de 2/3 do custo. Meu palpite atual sobre as compras da Nvidia pela Tesla é de $3B a $4B este ano.”

“Computação de inferência” refere-se aos cálculos de IA realizados pelos carros da Tesla em tempo real e é separado da computação de treinamento que o Dojo é responsável por.

O Dojo é uma aposta arriscada, uma que Musk já hedging várias vezes, dizendo que a Tesla pode não ter sucesso.

A longo prazo, a Tesla poderia teoricamente criar um novo modelo de negócios baseado em sua divisão de IA. Musk disse que a primeira versão do Dojo será adaptada para rotulagem e treinamento de visão computacional da Tesla, o que é ótimo para o FSD e para treinar o Optimus, o robô humanoide da Tesla. Mas isso não seria útil para muito mais.

Musk disse que versões futuras do Dojo serão mais adaptadas ao treinamento de IA de finalidade geral. Um problema potencial com isso é que quase todo o software de IA por aí foi escrito para funcionar com GPUs. Usar o Dojo para treinar modelos de IA de propósito geral exigiria reescrever o software.

Ou seja, a menos que a Tesla alugue sua computação, semelhante a como a AWS e a Azure alugam capacidades de computação em nuvem. Musk também observou durante os ganhos do Q2 que vê “um caminho para ser competitivo com a Nvidia com o Dojo.”

Um relatório de setembro de 2023 da Morgan Stanley previu que o Dojo poderia adicionar $500 bilhões ao valor de mercado da Tesla ao desbloquear novas fontes de receita na forma de robotaxis e serviços de software.

Em resumo, os chips do Dojo são uma apólice de seguro para a montadora, mas uma que pode gerar lucros.

Quão avançado está o Dojo?

O CEO da Nvidia, Jensen Huang, e o CEO da Tesla, Elon Musk, na Conferência de Tecnologia GPU em San Jose, Califórnia.Créditos da Imagem:Kim Kulish/Corbis via Getty Images / Getty Images

A Reuters reportou no ano passado que a Tesla começou a produção do Dojo em julho de 2023, mas um postagem de junho de 2023 de Musk sugeriu que o Dojo estava “online e realizando tarefas úteis há alguns meses.”

Por volta da mesma época, a Tesla afirmou que esperava que o Dojo fosse um dos cinco supercomputadores mais poderosos até fevereiro de 2024 — um feito que ainda não foi divulgado publicamente, deixando-nos céticos de que isso tenha ocorrido.

A empresa também disse que espera que total da computação do Dojo atinja 100 exaflops em outubro de 2024. (Um exaflop é igual a 1 quintilhão de operações computacionais por segundo. Para alcançar 100 exaflops, e supondo que um D1 pode alcançar 362 teraflops, a Tesla precisaria de mais de 276.000 D1s, ou cerca de 320.500 GPUs Nvidia A100.)

A Tesla também prometeu em janeiro de 2024 gastar $500 milhões para construir um supercomputador Dojo em sua gigafábrica em Buffalo, Nova York.

Em maio de 2024, Musk observou que a parte traseira da gigafábrica da Tesla em Austin será reservada para um “cluster de supercomputadores de alta densidade e resfriamento a água.” Agora sabemos que é realmente o Cortex, e não o Dojo, que está ocupando esse espaço em Austin.

Logo após a chamada de ganhos do segundo trimestre da Tesla, Musk postou no X que a equipe de IA da montadora está usando o computador de IA HW4 da Tesla (renomeado AI4), que é o hardware que vive nos veículos da Tesla, no loop de treinamento com GPUs da Nvidia. Ele observou que a divisão é de cerca de 90.000 Nvidia H100s mais 40.000 computadores AI4.

“E o Dojo 1 terá aproximadamente o equivalente a 8.000 H100 de treinamento online até o final do ano,” ele continuou. “Não é massivo, mas também não é trivial.”

A Tesla não forneceu atualizações sobre se conseguiu colocar aqueles chips online e executando o Dojo. Durante a chamada de ganhos do quarto trimestre de 2024, ninguém mencionou o Dojo. No entanto, a Tesla afirmou que completou a implantação do Cortex no Q4, e que foi o Cortex que ajudou a possibilitar o V13 do FSD supervisionado.

Esta história foi publicada originalmente em 3 de agosto de 2024 e será atualizada à medida que novas informações se desenvolvam.


    4 × 2 =

    Bolt42