Meta fez vários anúncios importantes esta semana sobre robótica e sistemas de IA incorporada. Isso inclui a divulgação de benchmarks e artefatos para melhor compreensão e interação com o mundo físico. Sparsh, Digit 360 e Digit Plexus, os três artefatos de pesquisa lançados pela Meta, focam em percepção tátil, destreza robótica e interação humano-robô. A Meta também está lançando o PARTNR, um novo benchmark para avaliar planejamento e raciocínio na colaboração entre humanos e robôs.
O lançamento ocorre em um momento em que os avanços em modelos fundacionais renovaram o interesse em robótica, e empresas de IA estão gradualmente expandindo sua atuação do reino digital para o mundo físico.
Há uma nova esperança na indústria de que, com a ajuda de modelos fundacionais como grandes modelos de linguagem (LLMs) e modelos de linguagem-visual (VLMs), os robôs podem realizar tarefas mais complexas que exigem raciocínio e planejamento.
Percepção tátil
Sparsh, desenvolvido em colaboração com a Universidade de Washington e a Universidade Carnegie Mellon, é uma família de modelos de codificadores para sensoriamento tátil baseado em visão. Ele foi projetado para fornecer aos robôs capacidades de percepção tátil. A percepção tátil é crucial para tarefas de robótica, como determinar quanta pressão pode ser aplicada a um determinado objeto para evitar danos.
A abordagem clássica para incorporar sensores táteis baseados em visão em tarefas robóticas é usar dados rotulados para treinar modelos personalizados que possam prever estados úteis. Essa abordagem não se generaliza entre diferentes sensores e tarefas.

A Meta descreve o Sparsh como um modelo de propósito geral que pode ser aplicado a diferentes tipos de sensores táteis baseados em visão e várias tarefas. Para superar os desafios enfrentados por gerações anteriores de modelos de percepção tátil, os pesquisadores treinaram os modelos Sparsh por meio de aprendizado auto-supervisionado (SSL), o que dispensa a necessidade de dados rotulados. O modelo foi treinado com mais de 460.000 imagens táteis, consolidadas de diferentes conjuntos de dados. De acordo com os experimentos dos pesquisadores, o Sparsh apresenta uma melhoria média de 95,1% em relação a modelos específicos de tarefas e sensores sob um orçamento limitado de dados rotulados. Os pesquisadores criaram diferentes versões do Sparsh baseadas em várias arquiteturas, incluindo os modelos I-JEPA e DINO da Meta.
Sensores táteis
Além de aproveitar dados existentes, a Meta também está lançando hardware para coletar informações táteis ricas do ambiente físico. Digit 360 é um sensor tátil em forma de dedo artificial com mais de 18 recursos de sensoriamento. O sensor possui mais de 8 milhões de taxéis para captar deformaçõe omnidimensionais e granulares na superfície da ponta do dedo. O Digit 360 captura várias modalidades de sensoriamento para fornecer uma compreensão mais rica do ambiente e das interações com objetos.
O Digit 360 também possui modelos de IA embarcados para reduzir a dependência de servidores baseados em nuvem. Isso permite que ele processe informações localmente e responda ao toque com mínima latência, semelhante ao arco reflexo em humanos e animais.

“Além de avançar a destreza robótica, este sensor inovador possui aplicações potenciais significativas desde medicina e próteses até realidade virtual e telepresença”, escrevem os pesquisadores da Meta.
A Meta está liberando publicamente o código e designs para o Digit 360 para estimular a pesquisa e inovação impulsionadas pela comunidade em percepção tátil. Mas, assim como no lançamento de modelos de código aberto, ela tem muito a ganhar com a adoção potencial de seu hardware e modelos. Os pesquisadores acreditam que as informações capturadas pelo Digit 360 podem ajudar no desenvolvimento de ambientes virtuais mais realistas, o que pode ser importante para os projetos de metaverso da Meta no futuro.
A Meta também está lançando o Digit Plexus, uma plataforma de hardware-software que visa facilitar o desenvolvimento de aplicações robóticas. O Digit Plexus pode integrar vários sensores táteis de ponta de dedo e pele em uma única mão robótica, codificar os dados táteis coletados pelos sensores e transmiti-los para um computador host através de um único cabo. A Meta está liberando o código e design do Digit Plexus para permitir que pesquisadores desenvolvam sobre a plataforma e avancem na pesquisa de destreza robótica.
A Meta fabricará o Digit 360 em parceria com o fabricante de sensores táteis GelSight Inc. Eles também se juntarão à empresa sul-coreana de robótica Wonik Robotics para desenvolver uma mão robótica totalmente integrada com sensores táteis na plataforma Digit Plexus.
Avaliação da colaboração humano-robô
A Meta também está lançando o Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR), um benchmark para avaliar a eficácia dos modelos de IA ao colaborar com humanos em tarefas domésticas.
O PARTNR é construído sobre o Habitat, o ambiente simulado da Meta. Ele inclui 100.000 tarefas de linguagem natural em 60 casas e envolve mais de 5.800 objetos únicos. O benchmark é projetado para avaliar o desempenho de LLMs e VLMs ao seguir instruções de humanos.
O novo benchmark da Meta se junta a um número crescente de projetos que estão explorando o uso de LLMs e VLMs em robótica e configurações de IA incorporada. No ano passado, esses modelos mostraram grande promessa para servir como módulos de planejamento e raciocínio para robôs em tarefas complexas. Startups como Figure e Covariant desenvolveram protótipos que utilizam modelos fundacionais para planejamento. Ao mesmo tempo, laboratórios de IA estão trabalhando na criação de melhores modelos fundacionais para robótica. Um exemplo é o projeto RT-X do Google DeepMind, que reúne conjuntos de dados de vários robôs para treinar um modelo de visão-linguagem-ação (VLA) que se generaliza para várias morfologias e tarefas robóticas.
Conteúdo relacionado
A IBM adquire a startup de análise de dados Seek AI e inaugura um acelerador de IA em Nova York.
[the_ad id="145565"] Na segunda-feira, a IBM anunciou que adquiriu a Seek AI, uma plataforma de IA que permite que os usuários façam perguntas sobre dados empresariais usando…
Sora da OpenAI agora está disponível GRATUITAMENTE para todos os usuários através do Criador de Vídeos do Microsoft Bing no mobile.
[the_ad id="145565"] Here's the rewritten content in Portuguese, maintaining the HTML tags: <div> <div id="boilerplate_2682874" class="post-boilerplate…
Salesforce compra a Moonhub, uma startup desenvolvendo ferramentas de IA para recrutamento.
[the_ad id="145565"] Atualizado às 13h13, horário do Pacífico: Um porta-voz da Salesforce disse ao TechCrunch que a Moonhub não foi adquirida, de fato, pela definição da…