Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais
A Nvidia lançou sua plataforma Cosmos world foundation model para acelerar o desenvolvimento de IA física.
Durante um discurso principal na CES 2025, o CEO da Nvidia, Jensen Huang, afirmou que a plataforma inclui modelos de fondação generativos de última geração, tokenizadores avançados, barreiras de proteção e um pipeline de processamento de vídeo acelerado projetado para avançar no desenvolvimento de sistemas de IA física, como veículos autônomos (AVs) e robôs.
Os modelos de IA física são caros de desenvolver e requerem enormes quantidades de dados do mundo real e testes. Os modelos de fundação Cosmos, ou WFMs, oferecem aos desenvolvedores uma maneira simples de gerar enormes quantidades de dados sintéticos fotorealistas e baseados em física para treinar e avaliar seus modelos existentes. Os desenvolvedores também podem construir modelos personalizados ajustando os WFMs do Cosmos.
Os modelos Cosmos estarão disponíveis sob uma licença de modelo aberto para acelerar o trabalho da comunidade de robótica e AV. Os desenvolvedores podem visualizar os primeiros modelos no catálogo da API da Nvidia ou baixar a família de modelos e o framework de ajuste fino do catálogo Nvidia NGC™ ou Hugging Face.
“Ele foi treinado em 20 milhões de horas de vídeo,” disse Huang. “Nvidia Cosmos. Trata-se de ensinar a IA a entender o mundo físico.”
Empresas líderes em robótica e automotiva, incluindo 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi e XPENG, juntamente com o gigante de ridesharing Uber, estão entre as primeiras a adotar o Cosmos.
“O momento ChatGPT para a robótica está chegando. Assim como os modelos de linguagem grandes, os modelos de fundação mundial são fundamentais para avançar no desenvolvimento de robôs e AV, mas nem todos os desenvolvedores têm a experiência e os recursos para treinar os seus próprios,” disse Jensen Huang, fundador e CEO da Nvidia, em uma declaração. “Criamos o Cosmos para democratizar a IA física e tornar a robótica geral acessível a todos os desenvolvedores.”
Modelos de fundação abertos para acelerar a próxima onda de IA
Conjunto de modelos abertos do Nvidia Cosmos significa que os desenvolvedores podem personalizar os WFMs com conjuntos de dados, como gravações em vídeo de viagens de AV ou robôs navegando em um armazém, de acordo com as necessidades de sua aplicação alvo.
Os WFMs do Cosmos são projetados para pesquisa e desenvolvimento em IA física e podem gerar vídeos baseados em física a partir de uma combinação de entradas, como texto, imagem e vídeo, além de dados de sensores de robôs ou dados de movimento. Os modelos são construídos para interações baseadas em física, permanência de objetos e geração de alta qualidade de ambientes industriais simulados — como armazéns ou fábricas — e ambientes de condução, incluindo várias condições de estrada.
No seu discurso de abertura na CES, Huang demonstrou maneiras pelas quais os desenvolvedores de IA física podem usar os modelos Cosmos, incluindo:
- Busca e compreensão de vídeo, permitindo que os desenvolvedores encontrem facilmente cenários de treinamento específicos, como condições de estrada nevadas ou congestionamento em armazéns, a partir de dados de vídeo.
- Geração controlável de dados sintéticos 3D-para-real, usando os modelos Cosmos para gerar vídeos fotorealistas a partir de cenários 3D controlados desenvolvidos na plataforma Nvidia Omniverse.
- Desenvolvimento e avaliação de modelos de IA física, seja construindo um modelo customizado sobre os modelos de fundação, melhorando os modelos usando o Cosmos para aprendizado por reforço ou testando como eles se comportam em um cenário simulado específico.
- Previsão — a capacidade de prever os resultados das próximas ações potenciais de um modelo de IA física — para ajudá-lo a selecionar a melhor ação a seguir.
- Simulação do multiverso, usando Cosmos e Omniverse para gerar todos os resultados futuros possíveis que um modelo de IA poderia tomar para ajudar a selecionar o melhor e mais preciso caminho.
A construção de modelos de IA física requer petabytes de dados de vídeo e dezenas de milhares de horas de computação para processar, curar e rotular esses dados. Para ajudar a economizar custos enormes em curadoria de dados, treinamento e personalização de modelos, o Cosmos conta com:
- Um pipeline de processamento de dados acelerado por AI e CUDA da Nvidia, alimentado pelo Nvidia NeMo Curator, que permite aos desenvolvedores processar, curar e rotular 20 milhões de horas de vídeos em 14 dias usando a plataforma Nvidia Blackwell, em vez de 3,4 anos usando um pipeline apenas de CPU.
- O Tokenizer da Nvidia Cosmos, um tokenizador visual de última geração para converter imagens e vídeos em tokens. Ele oferece oito vezes mais compressão total e 12 vezes mais processamento rápido do que os tokenizadores líderes de hoje.
- O framework Nvidia NeMo para treinamento, personalização e otimização de modelos altamente eficientes.
As maiores indústrias de IA física do mundo adotam o Cosmos
Pioneiros em toda a indústria de IA física já estão adotando as tecnologias do Cosmos.
A 1X, uma empresa de robôs humanoides e IA, lançou o conjunto de dados 1X World Model Challenge usando o Tokenizer do Cosmos. A XPENG usará o Cosmos para acelerar o desenvolvimento de seu robô humanoide. E a Hillbot e a SkildAI estão usando o Cosmos para acelerar o desenvolvimento de seu robô de propósito geral.
“A escassez e a variabilidade de dados são desafios-chave para o aprendizado bem-sucedido em ambientes robóticos,” disse Pras Velagapudi, CTO da Agility, em uma declaração. “As capacidades do Cosmos de texto-, imagem- e vídeo-para-mundo nos permitem gerar e aumentar cenários fotorealistas em uma variedade de tarefas que podemos usar para treinar modelos sem precisar de tanta captura de dados cara do mundo real.”
Líderes de transporte também estão utilizando o Cosmos para construir IA física para AVs.
A Waabi, uma empresa pioneira em IA generativa para o mundo físico, usará o Cosmos para a busca e curadoria de dados em vídeo para desenvolvimento e simulação de software de AV.
A Wayve, que está desenvolvendo modelos de fundação de IA para direção autônoma, está avaliando o Cosmos como uma ferramenta para procurar cenários de direção extremos e de canto usados para segurança e validação.
A Foretellix, provedora de ferramentas para AV, usará o Cosmos, juntamente com as APIs Nvidia Omniverse Sensor RTX, para avaliar e gerar cenários de teste de alta fidelidade e dados de treinamento em larga escala.
A Uber está se unindo à Nvidia para acelerar a mobilidade autônoma. Conjuntos de dados de direção ricos da Uber, combinados com os recursos da plataforma Cosmos e Nvidia DGX Cloud, ajudarão os parceiros de AV a construir modelos de IA ainda mais fortes de forma mais eficiente.
“A IA generativa impulsionará o futuro da mobilidade, exigindo dados ricos e um poder de computação muito poderoso,” disse Dara Khosrowshahi, CEO da Uber. “Trabalhando com a Nvidia, estamos confiantes de que podemos ajudar a acelerar o cronograma para soluções de direção autônoma seguras e escaláveis para a indústria.”
Desenvolvendo IA aberta, segura e responsável
O Nvidia Cosmos foi desenvolvido de acordo com os princípios de “IA confiável” da Nvidia, que priorizam privacidade, segurança, transparência e redução de preconceitos indesejados.
A IA confiável é essencial para fomentar inovação dentro da comunidade de desenvolvedores e manter a confiança dos usuários. A Nvidia está comprometida com a IA segura e confiável, alinhando-se aos compromissos de IA voluntários da Casa Branca e outras iniciativas globais de segurança em IA.
A plataforma Cosmos aberta inclui barreiras de proteção projetadas para mitigar textos e imagens prejudiciais, além de contar com uma ferramenta para aprimorar prompts de texto para precisão. Os vídeos gerados com os modelos autoregressivos e de difusão do Cosmos no catálogo da API da Nvidia incluem marcas d’água invisíveis para identificar conteúdo gerado por IA, ajudando a reduzir as chances de desinformação e atribuições incorretas.
A Nvidia incentiva os desenvolvedores a adotarem práticas de IA confiável e a aprimorar ainda mais as soluções de barreiras de proteção e marcas d’água para suas aplicações.
Disponibilidade
Os WFMs do Cosmos agora estão disponíveis sob a licença de modelo aberto da Nvidia no Hugging Face e no catálogo Nvidia NGC. Os modelos Cosmos em breve estarão disponíveis como microserviços Nvidia NIM totalmente otimizados.
Os desenvolvedores podem acessar o Nvidia NeMo Curator para processamento de vídeo acelerado e personalizar seus próprios modelos de mundo com o Nvidia NeMo. O Nvidia DGX Cloud oferece uma maneira rápida e fácil de implantar estes modelos, com suporte empresarial disponível por meio da plataforma de software Nvidia AI Enterprise.
A Nvidia também anunciou novos modelos de linguagem grandes Nvidia Llama Nemotron e modelos de linguagem de visão Nvidia Cosmos Nemotron que os desenvolvedores podem usar para casos de uso de IA empresarial em saúde, serviços financeiros, manufatura e muito mais.
Insights diários sobre casos de uso de negócios com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós trazemos as últimas novidades sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para maximizar o ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Criações de IA editadas por humanos podem ser provavelmente protegidas por direitos autorais nos EUA, afirma agência
[the_ad id="145565"] Nos EUA, criações geradas por IA — livros, filmes e assim por diante — que foram editadas por um ser humano provavelmente podem ser protegidas por direitos…
Ai2 lança o Tülu 3, um modelo totalmente open-source que supera o DeepSeek v3 e o GPT-4o com uma nova abordagem de pós-treinamento.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de liderança no setor. Saiba…
Microsoft lança Surface Pro e Laptop PCs com foco em Copilot, disponíveis com opções Snapdragon e Intel.
[the_ad id="145565"] Na quinta-feira, durante um evento em Nova York, a Microsoft apresentou duas novidades na linha de PCs Surface. O novo Surface Pro e o Surface Laptop…