Meta fez vários anúncios importantes esta semana sobre robótica e sistemas de IA incorporada. Isso inclui a divulgação de benchmarks e artefatos para melhor compreensão e interação com o mundo físico. Sparsh, Digit 360 e Digit Plexus, os três artefatos de pesquisa lançados pela Meta, focam em percepção tátil, destreza robótica e interação humano-robô. A Meta também está lançando o PARTNR, um novo benchmark para avaliar planejamento e raciocínio na colaboração entre humanos e robôs.
O lançamento ocorre em um momento em que os avanços em modelos fundacionais renovaram o interesse em robótica, e empresas de IA estão gradualmente expandindo sua atuação do reino digital para o mundo físico.
Há uma nova esperança na indústria de que, com a ajuda de modelos fundacionais como grandes modelos de linguagem (LLMs) e modelos de linguagem-visual (VLMs), os robôs podem realizar tarefas mais complexas que exigem raciocínio e planejamento.
Percepção tátil
Sparsh, desenvolvido em colaboração com a Universidade de Washington e a Universidade Carnegie Mellon, é uma família de modelos de codificadores para sensoriamento tátil baseado em visão. Ele foi projetado para fornecer aos robôs capacidades de percepção tátil. A percepção tátil é crucial para tarefas de robótica, como determinar quanta pressão pode ser aplicada a um determinado objeto para evitar danos.
A abordagem clássica para incorporar sensores táteis baseados em visão em tarefas robóticas é usar dados rotulados para treinar modelos personalizados que possam prever estados úteis. Essa abordagem não se generaliza entre diferentes sensores e tarefas.
A Meta descreve o Sparsh como um modelo de propósito geral que pode ser aplicado a diferentes tipos de sensores táteis baseados em visão e várias tarefas. Para superar os desafios enfrentados por gerações anteriores de modelos de percepção tátil, os pesquisadores treinaram os modelos Sparsh por meio de aprendizado auto-supervisionado (SSL), o que dispensa a necessidade de dados rotulados. O modelo foi treinado com mais de 460.000 imagens táteis, consolidadas de diferentes conjuntos de dados. De acordo com os experimentos dos pesquisadores, o Sparsh apresenta uma melhoria média de 95,1% em relação a modelos específicos de tarefas e sensores sob um orçamento limitado de dados rotulados. Os pesquisadores criaram diferentes versões do Sparsh baseadas em várias arquiteturas, incluindo os modelos I-JEPA e DINO da Meta.
Sensores táteis
Além de aproveitar dados existentes, a Meta também está lançando hardware para coletar informações táteis ricas do ambiente físico. Digit 360 é um sensor tátil em forma de dedo artificial com mais de 18 recursos de sensoriamento. O sensor possui mais de 8 milhões de taxéis para captar deformaçõe omnidimensionais e granulares na superfície da ponta do dedo. O Digit 360 captura várias modalidades de sensoriamento para fornecer uma compreensão mais rica do ambiente e das interações com objetos.
O Digit 360 também possui modelos de IA embarcados para reduzir a dependência de servidores baseados em nuvem. Isso permite que ele processe informações localmente e responda ao toque com mínima latência, semelhante ao arco reflexo em humanos e animais.
“Além de avançar a destreza robótica, este sensor inovador possui aplicações potenciais significativas desde medicina e próteses até realidade virtual e telepresença”, escrevem os pesquisadores da Meta.
A Meta está liberando publicamente o código e designs para o Digit 360 para estimular a pesquisa e inovação impulsionadas pela comunidade em percepção tátil. Mas, assim como no lançamento de modelos de código aberto, ela tem muito a ganhar com a adoção potencial de seu hardware e modelos. Os pesquisadores acreditam que as informações capturadas pelo Digit 360 podem ajudar no desenvolvimento de ambientes virtuais mais realistas, o que pode ser importante para os projetos de metaverso da Meta no futuro.
A Meta também está lançando o Digit Plexus, uma plataforma de hardware-software que visa facilitar o desenvolvimento de aplicações robóticas. O Digit Plexus pode integrar vários sensores táteis de ponta de dedo e pele em uma única mão robótica, codificar os dados táteis coletados pelos sensores e transmiti-los para um computador host através de um único cabo. A Meta está liberando o código e design do Digit Plexus para permitir que pesquisadores desenvolvam sobre a plataforma e avancem na pesquisa de destreza robótica.
A Meta fabricará o Digit 360 em parceria com o fabricante de sensores táteis GelSight Inc. Eles também se juntarão à empresa sul-coreana de robótica Wonik Robotics para desenvolver uma mão robótica totalmente integrada com sensores táteis na plataforma Digit Plexus.
Avaliação da colaboração humano-robô
A Meta também está lançando o Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR), um benchmark para avaliar a eficácia dos modelos de IA ao colaborar com humanos em tarefas domésticas.
O PARTNR é construído sobre o Habitat, o ambiente simulado da Meta. Ele inclui 100.000 tarefas de linguagem natural em 60 casas e envolve mais de 5.800 objetos únicos. O benchmark é projetado para avaliar o desempenho de LLMs e VLMs ao seguir instruções de humanos.
O novo benchmark da Meta se junta a um número crescente de projetos que estão explorando o uso de LLMs e VLMs em robótica e configurações de IA incorporada. No ano passado, esses modelos mostraram grande promessa para servir como módulos de planejamento e raciocínio para robôs em tarefas complexas. Startups como Figure e Covariant desenvolveram protótipos que utilizam modelos fundacionais para planejamento. Ao mesmo tempo, laboratórios de IA estão trabalhando na criação de melhores modelos fundacionais para robótica. Um exemplo é o projeto RT-X do Google DeepMind, que reúne conjuntos de dados de vários robôs para treinar um modelo de visão-linguagem-ação (VLA) que se generaliza para várias morfologias e tarefas robóticas.
Conteúdo relacionado
OpenAI apagou acidentalmente evidências potenciais no processo de copyright do NY Times (atualizado)
[the_ad id="145565"] Advogados do The New York Times e do Daily News, que processam a OpenAI por supostamente coletar seus trabalhos para treinar seus modelos de IA sem…
Salesforce lança o Centro de Testes Agentforce para avaliar o desempenho dos agentes
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais…
Startup de chips de IA MatX, fundada por ex-funcionários do Google, levanta Série A com avaliação de mais de $300 milhões, dizem fontes.
[the_ad id="145565"] A MatX, uma startup que desenvolve chips para suportar modelos de linguagem grandes, levantou uma rodada de investimentos Série A de aproximadamente 80…