A Nvidia avança no aprendizado robótico e desenvolvimento de humanos com ferramentas de IA e simulação

Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas de IA líderes do setor. Saiba mais

A Nvidia revelou novas ferramentas de IA e simulação que irão avançar o aprendizado de robôs e o desenvolvimento de humanoides.

A maior empresa de tecnologia do mundo por valor de mercado (avaliada em $3,432 trilhões) afirmou que as ferramentas permitirão que os desenvolvedores de robótica acelerem significativamente seu trabalho com robôs habilitados para IA, com ferramentas reveladas esta semana na Conferência de Aprendizado Robótico (CoRL) em Munique, Alemanha.

A nova linha inclui a disponibilidade geral da estrutura de aprendizado de robôs Nvidia Isaac Lab; seis novos fluxos de trabalho de aprendizado de robôs humanoides para o Projeto GR00T, uma iniciativa para acelerar o desenvolvimento de robôs humanoides; e novas ferramentas de desenvolvimento de modelos de mundo para curadoria e processamento de dados em vídeo, incluindo o tokenizador Nvidia Cosmos e o NeMo Curator da Nvidia para processamento de vídeo.

O tokenizador open-source Cosmos oferece aos desenvolvedores de robótica uma tokenização visual superior, dividindo imagens e vídeos em tokens de alta qualidade com taxas de compressão excepcionalmente altas. Ele funciona até 12 vezes mais rápido do que os tokenizadores atuais, enquanto o NeMo Curator fornece curadoria de processamento de vídeo até sete vezes mais rápido do que os pipelines não otimizados.

Também em conjunto com o CoRL, a Nvidia lançou 23 artigos e apresentou nove workshops relacionados ao aprendizado de robôs, além de liberar guias de treinamento e workflows para os desenvolvedores. Ademais, a Hugging Face e a Nvidia anunciaram que estão colaborando para acelerar a pesquisa de robótica open-source com LeRobot, Nvidia Isaac Lab e Nvidia Jetson para a comunidade de desenvolvedores.

Acelerando o desenvolvimento de robôs com o Isaac Lab

Modelos do Projeto GR00T da Nvidia Isaac Lab

A Nvidia Isaac Lab é uma estrutura de aprendizado de robô open-source construída sobre a Nvidia Omniverse, uma plataforma para desenvolver aplicações OpenUSD para digitalização industrial e simulação de IA física.

Os desenvolvedores podem usar o Isaac Lab para treinar políticas de robôs em grande escala. Esta estrutura de aprendizado unificada e open-source se aplica a qualquer representação — desde humanoides a quadrúpedes e robôs colaborativos — para lidar com movimentos e interações cada vez mais complexas.

Os principais fabricantes comerciais de robôs, desenvolvedores de aplicações robóticas e entidades de pesquisa em robótica ao redor do mundo estão adotando o Isaac Lab, incluindo 1X, Agility Robotics, The AI Institute, Berkeley Humanoid, Boston Dynamics, Field AI, Fourier, Galbot, Mentee Robotics, Skild AI, Swiss-Mile, Unitree Robotics e Xpeng Robotics.

Projeto GR00T: Fundações para robôs humanoides de uso geral

Os humanoides estão vindo. Construir humanoides avançados é extremamente difícil, exigindo abordagens tecnológicas e interdisciplinares em múltiplas camadas para fazer com que os robôs percebam, movimentem-se e aprendam habilidades de forma eficaz para interações humano-robô e robô-ambiente.

O Projeto GR00T é uma iniciativa para desenvolver bibliotecas aceleradas, modelos fundacionais e pipelines de dados para acelerar o ecossistema global de desenvolvedores de robôs humanoides.

Seis novos fluxos de trabalho do Projeto GR00T fornecem aos desenvolvedores humanoides modelos para realizar as capacidades mais desafiadoras dos robôs humanoides. Eles incluem coisas como GR00T-Gen para construir ambientes 3D baseados em IA generativa e OpenUSD, entre outros.

“Os robôs humanoides são a próxima onda de IA incorporada”, disse Jim Fan, gerente sênior de pesquisa de IA incorporada na Nvidia, em uma declaração. “As equipes de pesquisa e engenharia da Nvidia estão colaborando em toda a empresa e nosso ecossistema de desenvolvedores para construir o Projeto GR00T para ajudar a avançar o progresso e o desenvolvimento dos desenvolvedores globais de robôs humanoides.”

Atualmente, os desenvolvedores de robôs estão construindo modelos de mundo — representações de IA do mundo que podem prever como objetos e ambientes reagem às ações de um robô. Construir esses modelos de mundo é incrivelmente intensivo em computação e dados, com modelos exigindo milhares de horas de dados de imagem ou vídeo do mundo real e curados.

Os tokenizadores Cosmos da Nvidia oferecem codificação e decodificação de alta qualidade e eficiência para simplificar o desenvolvimento desses modelos de mundo. Eles estabelecem um novo padrão de mínima distorção e instabilidade temporal, permitindo reconstruções de vídeo e imagem de alta qualidade.

Oferecendo compressão de alta qualidade e reconstrução visual até 12 vezes mais rápida, o tokenizador Cosmos pavimenta o caminho para o desenvolvimento escalável, robusto e eficiente de aplicações generativas em uma ampla gama de domínios visuais.

A 1X, uma empresa de robôs humanoides, atualizou o conjunto de dados do 1X World Model Challenge para usar o tokenizador Cosmos.

“O tokenizador Cosmos da Nvidia alcança uma compressão temporal e espacial realmente alta de nossos dados enquanto mantém a fidelidade visual,” disse Eric Jang, vice-presidente de IA da 1X Technologies, em uma declaração. “Isso nos permite treinar modelos de mundo com geração de vídeo de longo prazo de uma forma ainda mais eficiente em termos de computação.”

Outros desenvolvedores de robôs humanoides e de propósito geral, incluindo Xpeng Robotics e Hillbot, estão desenvolvendo com o tokenizador Cosmos da Nvidia para gerenciar imagens e vídeos em alta resolução.

NeMo Curator

O NeMo Curator agora inclui um pipeline de processamento de vídeo. Isso permite que os desenvolvedores de robôs melhorem a precisão de seus modelos de mundo processando dados de texto, imagem e vídeo em grande escala.

Curar dados de vídeo apresenta desafios devido ao seu tamanho massivo, exigindo pipelines escaláveis e uma orquestração eficiente para balanceamento de carga entre GPUs. Além disso, modelos para filtragem, legendagem e incorporação precisam de otimização para maximizar a capacidade de throughput.

O NeMo Curator supera esses desafios ao simplificar a curadoria de dados com a orquestração automática de pipelines, reduzindo significativamente o tempo de processamento. Ele suporta escalonamento linear em sistemas multi-GPU multi-nó, lidando eficientemente com mais de 100 petabytes de dados. Isso simplifica o desenvolvimento de IA, reduz custos e acelera o tempo de lançamento no mercado.

Disponibilidade

A Nvidia Isaac Lab 1.2 está disponível agora e é open-source no GitHub. O tokenizador Cosmos da Nvidia está disponível agora no GitHub e na Hugging Face. O NeMo Curator para processamento de vídeo estará disponível no final do mês.

Os novos fluxos de trabalho do Projeto GR00T chegarão em breve para ajudar as empresas de robôs a desenvolver capacidades de robôs humanoides com maior facilidade.

Para pesquisadores e desenvolvedores que estão aprendendo a usar o Isaac Lab, novos guias de introdução e tutoriais já estão disponíveis, incluindo um guia de migração do Isaac Gym para o Isaac Lab.

VB Diário

Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço do VentureBeat.

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.