A Nvidia está entrando no mundo dos modelos globais — modelos de IA que se inspiram nos modelos mentais do mundo que os humanos desenvolvem naturalmente.
Na CES 2025 em Las Vegas, a empresa anunciou que irá disponibilizar abertamente uma família de modelos globais que podem prever e gerar vídeos “conscientes da física”. A Nvidia está chamando essa família de Modelos de Fundação do Mundo Cosmos, ou Cosmos WFMs para abreviar.
Os modelos, que podem ser ajustados para aplicações específicas, estão disponíveis nos catálogos da API da Nvidia e NGC, GitHub e na plataforma de desenvolvimento de IA Hugging Face.
“A Nvidia está disponibilizando a primeira onda de Cosmos WFMs para simulação baseada em física e geração de dados sintéticos,” escreveu a empresa em um blog que foi enviado ao TechCrunch. “Pesquisadores e desenvolvedores, independentemente do tamanho da empresa, podem usar livremente os modelos Cosmos sob a licença permissiva de modelo aberto da Nvidia que permite o uso comercial.”
Existem vários modelos na família Cosmos WFM, divididos em três categorias: Nano para aplicações de baixa latência e em tempo real, Super para modelos “de base altamente performáticos” e Ultra para saídas de máxima qualidade e fidelidade.
Os modelos variam em tamanho de 4 bilhões a 14 bilhões de parâmetros, com o Nano sendo o menor e o Ultra o maior. Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam um desempenho melhor do que aqueles com menos parâmetros.
Como parte do Cosmos WFM, a Nvidia também está lançando um “modelo de upsampling”, um decodificador de vídeo otimizado para realidade aumentada, e modelos de restrição para garantir uso responsável, bem como modelos ajustados para aplicações como a geração de dados de sensores para o desenvolvimento de veículos autônomos. Estes, assim como os outros modelos Cosmos WFM, foram treinados em 9.000 trilhões de tokens a partir de 20 milhões de horas de interações humanas do mundo real, dados ambientais, industriais, de robótica e de direção, disse a Nvidia. (Em IA, “tokens” representam pedaços de dados brutos — neste caso, filmagens de vídeo.)
A Nvidia não divulgou a origem desses dados de treinamento, mas pelo menos um relatório — e uma ação coletiva — alega que a empresa treinou com vídeos protegidos do YouTube sem permissão.
Quando contatada para comentar, uma porta-voz da Nvidia disse ao TechCrunch que o Cosmos “não foi projetado para copiar ou infringir quaisquer obras protegidas.”
“O Cosmos aprende como as pessoas aprendem,” disse a porta-voz. “Para ajudar o Cosmos a aprender, reunimos dados de uma variedade de fontes públicas e privadas e estamos confiantes de que nosso uso dos dados é consistente com a letra e o espírito da lei. Fatos sobre como o mundo funciona — que são o que os modelos Cosmos aprendem — não são passíveis de direitos autorais ou estão sujeitos ao controle de qualquer autor ou empresa individual.”
Deixando de lado o fato de que modelos como o Cosmos não aprendem realmente como as pessoas aprendem, especialistas em direitos autorais afirmam que alegações como as da Nvidia, que se apoiam na doutrina jurídica de uso justo, podem não resistir ao escrutínio judicial. Se essas empresas prevalecerão dependerá em grande parte de como os tribunais decidirão sobre o uso justo, o que permite a utilização de obras protegidas para fazer algo novo, desde que seja transformador, aplicado ao treinamento de IA.
A Nvidia afirmou que os modelos Cosmos WFM, dados texto ou quadros de vídeo, podem gerar dados sintéticos “controláveis e de alta qualidade” para impulsionar o treinamento de modelos para robótica, carros autônomos e mais.
“A suíte de modelos abertos da Nvidia Cosmos significa que os desenvolvedores podem personalizar os WFMs com conjuntos de dados, como gravações em vídeo de viagens de veículos autônomos ou robôs navegando em um armazém,” afirmou a Nvidia em um comunicado à imprensa. “Os WFMs do Cosmos são construídos para pesquisa e desenvolvimento de IA física, e podem gerar vídeos baseados em física a partir de uma combinação de entradas, como texto, imagens e vídeo, bem como dados de sensores ou movimento de robôs.”
A Nvidia afirmou que empresas, incluindo Waabi, Wayve, Foretellix e Uber, já se comprometeram a testar os WFMs do Cosmos para vários casos de uso, desde busca e curadoria de vídeos até a construção de modelos de IA para veículos autônomos.
“IA generativa impulsionará o futuro da mobilidade, exigindo dados ricos e computação muito poderosa,” disse o CEO da Uber, Dara K
Conteúdo relacionado
Criações de IA editadas por humanos podem ser provavelmente protegidas por direitos autorais nos EUA, afirma agência
[the_ad id="145565"] Nos EUA, criações geradas por IA — livros, filmes e assim por diante — que foram editadas por um ser humano provavelmente podem ser protegidas por direitos…
Ai2 lança o Tülu 3, um modelo totalmente open-source que supera o DeepSeek v3 e o GPT-4o com uma nova abordagem de pós-treinamento.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de liderança no setor. Saiba…
Microsoft lança Surface Pro e Laptop PCs com foco em Copilot, disponíveis com opções Snapdragon e Intel.
[the_ad id="145565"] Na quinta-feira, durante um evento em Nova York, a Microsoft apresentou duas novidades na linha de PCs Surface. O novo Surface Pro e o Surface Laptop…