O modo de uso de computador da Anthropic revela pontos fortes e limitações em novo estudo

Participe das nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre coberturas de IA líderes da indústria. Saiba mais

Desde que a Anthropic lançou o recurso “Uso de Computador” para o Claude em outubro, houve muita empolgação sobre o que os agentes de IA podem fazer quando recebem a capacidade de imitar interações humanas. Um novo estudo do Show Lab da Universidade Nacional de Cingapura fornece uma visão geral do que podemos esperar da atual geração de agentes de interface gráfica do usuário (GUI).

Claude é o primeiro modelo de fronteira que pode interagir como um agente de GUI com um dispositivo através das mesmas interfaces que os humanos utilizam. O modelo acessa apenas capturas de tela da área de trabalho e interage acionando ações de teclado e mouse. O recurso promete habilitar os usuários a automatizar tarefas através de instruções simples e sem a necessidade de ter acesso à API de aplicações.

Os pesquisadores testaram o Claude em uma variedade de tarefas, incluindo busca na web, conclusão de fluxos de trabalho, produtividade em escritório e videogames. As tarefas de busca na web envolvem navegar e interagir com sites, como pesquisar e comprar itens ou assinar serviços de notícias. As tarefas de fluxo de trabalho envolvem interações entre várias aplicações, como extrair informações de um site e inseri-las em uma planilha. As tarefas de produtividade em escritório testam a capacidade do agente de realizar operações comuns, como formatar documentos, enviar e-mails e criar apresentações. As tarefas de videogame avaliam a capacidade do agente de realizar tarefas de múltiplos passos que requerem compreensão da lógica do jogo e planejamento de ações.

Cada tarefa testa a capacidade do modelo em três dimensões: planejamento, ação e crítica. Primeiro, o modelo deve elaborar um plano coerente para realizar a tarefa. Em seguida, deve ser capaz de executar o plano traduzindo cada passo em uma ação, como abrir um navegador, clicar em elementos e digitar texto. Por fim, o elemento crítico determina se o modelo pode avaliar seu progresso e sucesso na conclusão da tarefa. O modelo deve ser capaz de entender se cometeu erros ao longo do caminho e corrigir sua trajetória. E se a tarefa não for possível, deve fornecer uma explicação lógica. Os pesquisadores criaram uma estrutura baseada nesses três componentes e revisaram e avaliaram todos os testes com a ajuda de humanos.

No geral, o Claude se saiu muito bem ao executar tarefas complexas. Ele conseguiu raciocinar e planejar os múltiplos passos necessários para realizar uma tarefa, executar as ações e avaliar seu progresso a cada passo do caminho. Ele também pode coordenar entre diferentes aplicações, como copiar informações de páginas da web e colá-las em planilhas. Além disso, em alguns casos, revisita os resultados ao final da tarefa para garantir que tudo esteja alinhado com o objetivo. O rastreio de raciocínio do modelo mostra que ele tem uma compreensão geral de como diferentes ferramentas e aplicações funcionam e pode coordená-las de forma eficaz.

No entanto, ele também tende a cometer erros triviais que usuários humanos comuns evitariam facilmente. Por exemplo, em uma tarefa, o modelo não conseguiu completar uma assinatura porque não rolou a página para encontrar o botão correspondente. Em outros casos, falhou em tarefas muito simples e claras, como selecionar e substituir texto ou alterar marcadores para números. Além disso, o modelo não percebeu seu erro ou fez suposições equivocadas sobre o motivo pelo qual não conseguiu atingir o objetivo desejado.

De acordo com os pesquisadores, os erros de julgamento do modelo em relação ao seu progresso destacam “um déficit nos mecanismos de autoavaliação do modelo” e sugerem que “uma solução completa para isso ainda pode exigir melhorias na estrutura do agente de GUI, como um módulo crítico interno rigoroso.” A partir dos resultados, também está claro que os agentes de GUI não conseguem replicar todas as nuances básicas de como os humanos usam computadores.

O que isso significa para as empresas?

A promessa de usar descrições textuais básicas para automatizar tarefas é muito atraente. Mas, pelo menos por enquanto, a tecnologia não está pronta para implantação em massa. O comportamento dos modelos é instável e pode levar a resultados imprevisíveis, o que pode ter consequências danosas em aplicações sensíveis. Realizar ações através de interfaces projetadas para humanos também não é a forma mais rápida de realizar tarefas que podem ser feitas através de APIs.

Além disso, ainda temos muito a aprender sobre os riscos de segurança de dar a modelos de linguagem de grande porte (LLMs) o controle do mouse e do teclado. Por exemplo, um estudo mostra que agentes web podem facilmente cair vítimas de ataques adversariais que humanos ignorariam facilmente.

Automatizar tarefas em escala ainda requer uma infraestrutura robusta, incluindo APIs e microsserviços que possam ser conectados com segurança e atendidos em grande escala. No entanto, ferramentas como o Claude Uso de Computador podem ajudar equipes de produtos a explorar ideias e iterar diferentes soluções para um problema sem investir tempo e dinheiro no desenvolvimento de novos recursos ou serviços para automatizar tarefas. Uma vez que uma solução viável é descoberta, a equipe pode se concentrar em desenvolver o código e os componentes necessários para entregá-la de forma eficiente e confiável.

VB Diário

Fique por dentro! Receba as últimas notícias na sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.