Bolt42

O fundador e CEO da Figure, Brett Adcock, revelou na quinta-feira um novo modelo de machine learning para robôs humanoides. A notícia surge duas semanas após Adcock anunciar que a empresa de robótica da Bay Area decidiu se afastar de uma colaboração com a OpenAI, e gira em torno do Helix, um modelo “generalista” de Visão-Linguagem-Ação (VLA).

Os VLAs são um fenômeno novo para a robótica, aproveitando comandos de visão e linguagem para processar informações. Atualmente, o exemplo mais conhecido dessa categoria é o RT-2 da Google DeepMind, que treina robôs através de uma combinação de vídeos e grandes modelos de linguagem (LLMs).

O Helix funciona de maneira semelhante, combinando dados visuais e comandos de linguagem para controlar um robô em tempo real. A Figure afirma: “O Helix demonstra forte generalização de objetos, conseguindo pegar milhares de itens domésticos novos com formas, tamanhos, cores e propriedades materiais diferentes nunca encontrados antes no treinamento, simplesmente pedindo em linguagem natural.”

Créditos da Imagem:Figure

Em um mundo ideal, você poderia simplesmente dizer a um robô para fazer algo e ele faria. É aí que entra o Helix, de acordo com a Figure. A plataforma foi projetada para fechar a lacuna entre o processamento de visão e linguagem. Após receber um comando de voz em linguagem natural, o robô avalia visualmente seu ambiente e, em seguida, realiza a tarefa.

A Figure oferece exemplos como: “Entregue o pacote de biscoitos para o robô à sua direita” ou “Receba o pacote de biscoitos do robô à sua esquerda e coloque-o na gaveta aberta.” Ambos os exemplos envolvem um par de robôs trabalhando juntos. Isso porque o Helix foi projetado para controlar dois robôs ao mesmo tempo, com um ajudando o outro a realizar várias tarefas domésticas.

A Figure está demonstrando o VLM ao destacar o trabalho que a empresa tem feito com seu robô humanoide O2 no ambiente doméstico. As casas são notoriamente complicadas para robôs, uma vez que carecem da estrutura e consistência de armazéns e fábricas.

As dificuldades com aprendizagem e controle são grandes obstáculos que separam sistemas robóticos complexos do lar. Essas questões, juntamente com os preços que variam de cinco a seis dígitos, são a razão pela qual o robô doméstico não é a prioridade da maioria das empresas de robótica humanoide. De modo geral, a abordagem é desenvolver robôs para clientes industriais, melhorando a confiabilidade e reduzindo os custos antes de abordar os lares. O trabalho doméstico é uma conversa para alguns anos à frente.

Quando a TechCrunch visitou os escritórios da Figure na Bay Area em 2024, Adcock mostrou algumas das provas que a empresa estava fazendo seu robô humanoide passar em um ambiente doméstico. Na época, parecia que o trabalho não estava sendo priorizado, já que a Figure se concentrava em pilotos de trabalho com corporações como a BMW.

Créditos da Imagem:Figure

Com o anúncio do Helix na quinta-feira, a Figure deixa claro que o lar deve ser uma prioridade por si só. É um ambiente desafiador e complexo para testar esse tipo de modelo de treinamento. Ensinar robôs a realizar tarefas complexas na cozinha — por exemplo — abre um leque de ações em diferentes ambientes.

“Para que os robôs sejam úteis nas residências, eles precisarão ser capazes de gerar comportamentos novos e inteligentes sob demanda, especialmente para objetos que eles nunca viram antes”, diz a Figure. “Ensinar os robôs até mesmo um único novo comportamento atualmente exige um esforço humano substancial: seja horas de programação manual por especialistas de nível PhD ou milhares de demonstrações.”

A programação manual não escalará para o lar. Existem simplesmente demasiadas variáveis desconhecidas. Cozinhas, salas de estar e banheiros variam drasticamente de uma para outra. O mesmo pode ser dito para as ferramentas usadas para cozinhar e limpar. Além disso, as pessoas fazem bagunças, rearranjam móveis e preferem uma variedade de iluminação ambiental. Este método consome tempo e dinheiro demais — embora a Figure certamente tenha bastante do último.

A outra opção é o treinamento — e muito dele. Braços robóticos treinados para pegar e colocar objetos em laboratórios geralmente utilizam esse método. O que não se vê são as centenas de horas de repetição necessárias para tornar uma demonstração robusta o suficiente para enfrentar tarefas altamente variáveis. Para pegar algo corretamente na primeira tentativa, um robô precisa ter feito isso centenas de vezes no passado.

Como muita coisa relacionada à robótica humanoide no momento, o trabalho no Helix ainda está em um estágio muito inicial. Os espectadores devem ser avisados de que muito trabalho acontece nos bastidores para criar os tipos de vídeos curtos e bem produzidos vistos neste post. O anúncio de hoje é, em essência, uma ferramenta de recrutamento projetada para trazer mais engenheiros a bordo para ajudar a desenvolver o projeto.


    onze − 10 =

    Bolt42