Bolt42

Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder no setor. Saiba Mais


A Nvidia lançou Cosmos-Transfer1, um modelo inovador de IA que permite aos desenvolvedores criar simulações altamente realistas para o treinamento de robôs e veículos autônomos. Disponível agora no Hugging Face, o modelo aborda um desafio persistente no desenvolvimento de IA física: superar a lacuna entre os ambientes de treinamento simulados e as aplicações do mundo real.

“Apresentamos o Cosmos-Transfer1, um modelo de geração de mundo condicional que pode gerar simulações de mundo com base em múltiplas entradas de controle espacial de várias modalidades, como segmentação, profundidade e contorno,” afirmam os pesquisadores da Nvidia em um artigo publicado juntamente com o lançamento. “Isso possibilita uma geração de mundo altamente controlável e encontra uso em diversos casos de transferência de mundo para mundo, incluindo Sim2Real.”

Diferentemente dos modelos de simulação anteriores, o Cosmos-Transfer1 introduz um sistema de controle multimodal adaptativo que permite aos desenvolvedores atribuir pesos diferentes a várias entradas visuais — como informações de profundidade ou contornos de objetos — em diferentes partes de uma cena. Essa inovação possibilita um controle mais nuançado sobre os ambientes gerados, melhorando significativamente seu realismo e utilidade.

Como o controle multimodal adaptativo transforma a tecnologia de simulação de IA

As abordagens tradicionais para treinar sistemas de IA física envolvem a coleta de grandes quantidades de dados do mundo real — um processo caro e demorado — ou o uso de ambientes simulados que frequentemente carecem da complexidade e variabilidade do mundo real.

O Cosmos-Transfer1 aborda esse dilema permitindo que os desenvolvedores utilizem entradas multimodais (como visuais desfocados, detecção de bordas, mapas de profundidade e segmentação) para gerar simulações fotorealistas que preservam aspectos cruciais da cena original enquanto adicionam variações naturais.

Essa capacidade é especialmente valiosa na robótica, onde um desenvolvedor pode querer manter controle preciso sobre como um braço robótico aparece e se move, permitindo mais liberdade criativa na geração de ambientes de fundo diversos. Para veículos autônomos, isso possibilita a preservação do layout das estradas e dos padrões de tráfego, enquanto varia as condições climáticas, iluminação ou ambientes urbanos.

Aplicações de IA física que podem transformar a robótica e a condução autônoma

O Dr. Ming-Yu Liu, um dos principais contribuintes do projeto, explicou por que essa tecnologia é importante para aplicações industriais.

“Um modelo de política orienta o comportamento de um sistema de IA física, garantindo que o sistema opere com segurança e de acordo com seus objetivos,” Liu e seus colegas observam no artigo. “O Cosmos-Transfer1 pode ser pós-treinado em modelos de política para gerar ações, economizando os custos, tempo e necessidades de dados do treinamento manual de políticas.”

A tecnologia já demonstrou seu valor em testes de simulação de robótica. Ao usar o Cosmos-Transfer1 para aprimorar dados de robótica simulada, os pesquisadores da Nvidia descobriram que o modelo melhora significativamente o fotorealismo, “adicionando mais detalhes à cena e sombreamento complexo e iluminação natural” enquanto preserva a dinâmica física do movimento do robô.

Para o desenvolvimento de veículos autônomos, o modelo permite que os desenvolvedores “maximizem a utilidade de casos extremos do mundo real,” ajudando veículos a aprender a lidar com situações raras, mas críticas, sem necessidade de encontrá-las em estradas reais.

Dentro do ecossistema estratégico de IA da Nvidia para aplicações no mundo físico

O Cosmos-Transfer1 representa apenas um componente da plataforma mais ampla da Nvidia, chamada Cosmos, uma suíte de modelos de fundação de mundo (WFM) projetada especificamente para o desenvolvimento de IA física. A plataforma inclui Cosmos-Predict1 para geração de mundo de propósito geral e Cosmos-Reason1 para raciocínio físico de senso comum.

“Nvidia Cosmos é uma plataforma de modelo de fundação de mundo voltada para desenvolvedores, projetada para ajudar os desenvolvedores de IA física a construir seus sistemas de IA física de forma melhor e mais rápida,” afirma a empresa em seu repositório do GitHub. A plataforma inclui modelos pré-treinados sob a Licença de Modelo Aberto da Nvidia e scripts de treinamento sob a Licença Apache 2.

Isso posiciona a Nvidia para capitalizar o crescente mercado de ferramentas de IA que podem acelerar o desenvolvimento de sistemas autônomos, especialmente à medida que indústrias de manufatura a transporte investem pesadamente em robótica e tecnologia autônoma.

Geração em tempo real: Como o hardware da Nvidia alimenta a simulação de IA de próxima geração

A Nvidia também demonstrou o Cosmos-Transfer1 sendo executado em tempo real em seu hardware mais recente. “Demonstraremos ainda uma estratégia de escalonamento de inferência para alcançar geração de mundo em tempo real com um rack Nvidia GB200 NVL72,” observam os pesquisadores.

A equipe conseguiu um aumento de velocidade de aproximadamente 40x ao escalar de uma GPU para 64 GPUs, possibilitando a geração de 5 segundos de vídeo de alta qualidade em apenas 4,2 segundos — efetivamente uma taxa de transferência em tempo real.

Esse desempenho em escala aborda outro desafio crítico da indústria: a velocidade de simulação. Simulações rápidas e realistas permitem ciclos de teste e iteração mais rápidos, acelerando o desenvolvimento de sistemas autônomos.

Inovação de código aberto: Democratizando IA avançada para desenvolvedores em todo o mundo

A decisão da Nvidia de publicar tanto o modelo Cosmos-Transfer1 quanto seu código subjacente no GitHub remove barreiras para desenvolvedores em todo o mundo. Este lançamento público dá acesso a equipes menores e pesquisadores independentes à tecnologia de simulação que anteriormente exigia recursos substanciais.

A iniciativa se encaixa na estratégia mais ampla da Nvidia de construir comunidades robustas de desenvolvedores em torno de suas ofertas de hardware e software. Ao disponibilizar essas ferramentas para um público mais amplo, a empresa expande sua influência, ao mesmo tempo em que potencialmente acelera o progresso no desenvolvimento de IA física.

Para engenheiros de robótica e de veículos autônomos, essas ferramentas recém-disponíveis poderiam encurtar os ciclos de desenvolvimento por meio de ambientes de treinamento mais eficientes. O impacto prático pode ser sentido primeiro nas fases de teste, onde os desenvolvedores podem expor os sistemas a uma gama mais ampla de cenários antes do lançamento no mundo real.

Embora o código aberto torne a tecnologia disponível, utilizá-la de forma eficaz ainda requer expertise e recursos computacionais — um lembrete de que, no desenvolvimento de IA, o código em si é apenas o começo da história.





    três × 1 =




    Bolt42