IA que clica por você: A pesquisa da Microsoft aponta para o futuro da automação de interfaces gráficas

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder na indústria. Saiba mais

Uma nova pesquisa abrangente realizada por pesquisadores da Microsoft e parceiros acadêmicos revela que agentes de inteligência artificial impulsionados por grandes modelos de linguagem (LLMs) estão se tornando cada vez mais capazes de controlar interfaces gráficas do usuário (GUIs), o que pode mudar a forma como os humanos interagem com o software.

A tecnologia essencialmente fornece aos sistemas de IA a capacidade de visualizar e manipular interfaces de computador da mesma forma que os humanos — clicando em botões, preenchendo formulários e navegando entre aplicativos. Em vez de exigir que os usuários aprendam comandos complexos de software, esses “agentes GUI” podem interpretar solicitações em linguagem natural e executar automaticamente as ações necessárias.

“Esses agentes representam uma mudança de paradigma, permitindo que os usuários realizem tarefas complexas e em várias etapas por meio de comandos conversacionais simples,” escrevem os pesquisadores em seu estudo. “Suas aplicações abrangem navegação na web, interações com aplicativos móveis e automação de desktop, oferecendo uma experiência transformadora que revoluciona a forma como os indivíduos interagem com o software.”

Pense nisso como ter um assistente executivo altamente qualificado que pode operar qualquer programa de software em seu nome. Você simplesmente diz ao assistente o que deseja realizar, e ele cuida de todos os detalhes técnicos para fazer isso acontecer.

Esta linha do tempo ilustra o crescimento rápido de agentes de IA capazes de controlar software, com um aumento de novos modelos de pesquisadores e empresas de tecnologia surgindo desde 2023, classificados por suas aplicações em plataformas web, móveis e de computador. (Crédito: arxiv.org)

A ascensão dos assistentes de IA corporativos muda tudo

Grandes empresas de tecnologia já estão correndo para incorporar essas capacidades em seus produtos. O Power Automate da Microsoft usa LLMs para ajudar os usuários a criar fluxos de trabalho automatizados entre aplicativos. O Assistente de IA Copilot da empresa pode controlar diretamente o software com base em comandos de texto. A funcionalidade de Uso de Computador da Claude, da Anthropic, permite que a IA interaja com interfaces da web e realize tarefas complexas. A Google está supostamente desenvolvendo o Projeto Jarvis, um sistema de IA que utilizaria o navegador Chrome para realizar tarefas baseadas na web, como pesquisa, compras e reservas de viagens, embora essa capacidade ainda esteja em desenvolvimento e não tenha sido lançada publicamente.

“O advento dos Modelos de Linguagem de Grande Escala, particularmente os modelos multimodais, inaugurou uma nova era de automação de GUI,” observa o artigo. “Eles demonstraram capacidades excepcionais em compreensão de linguagem natural, geração de código, generalização de tarefas e processamento visual.”

Isso representa uma potencial $68,9 bilhões de oportunidade de mercado até 2028, segundo analistas da BCC Research, à medida que as empresas buscam automatizar tarefas repetitivas e tornar seu software mais acessível a usuários não técnicos. O mercado projeta-se que cresça de $8,3 bilhões em 2022 para esse valor, com uma taxa de crescimento anual composta (CAGR) de 43,9% durante o período de previsão.

O impacto na empresa: Desafios e oportunidades na automação de IA

No entanto, obstáculos significativos permanecem antes que a tecnologia veja uma adoção empresarial generalizada. Os pesquisadores identificam várias limitações-chave, incluindo preocupações com a privacidade quando agentes lidam com dados sensíveis, restrições de desempenho computacional e a necessidade de garantias melhores de segurança e confiabilidade.

“Embora sejam eficazes para fluxos de trabalho pré-definidos, esses métodos carecem da flexibilidade e adaptabilidade necessárias para aplicações dinâmicas do mundo real,” afirmam os pesquisadores sobre abordagens anteriores de automação.

A equipe de pesquisa fornece um roteiro detalhado para enfrentar esses desafios, enfatizando a importância de desenvolver modelos mais eficientes que possam funcionar localmente em dispositivos, implementar medidas de segurança robustas e criar estruturas de avaliação padronizadas.

“Ao incorporar salvaguardas e ações personalizáveis, esses agentes garantem eficiência e segurança ao lidar com comandos complexos,” observam os pesquisadores, destacando os recentes avanços em tornar a tecnologia pronta para o ambiente corporativo.

Para os líderes de tecnologia empresarial, o surgimento de agentes de GUI alimentados por LLM representa tanto uma oportunidade quanto uma consideração estratégica. Embora a tecnologia prometa ganhos significativos de produtividade por meio da automação, as organizações precisarão avaliar cuidadosamente as implicações de segurança e os requisitos de infraestrutura para a implantação desses sistemas de IA.

“O campo dos agentes de GUI está se movendo em direção a arquiteturas de múltiplos agentes, capacidades multimodais, conjuntos de ações diversos e novas estratégias de tomada de decisão,” explica o artigo. “Essas inovações marcam passos significativos em direção à criação de agentes inteligentes e adaptáveis, capazes de alto desempenho em ambientes variados e dinâmicos.”

Especialistas da indústria preveem que até 2025, pelo menos 60% das grandes empresas estarão testando algum tipo de agentes de automação de GUI, potencialmente levando a grandes ganhos de eficiência, mas também levantando questões importantes sobre privacidade de dados e deslocamento de empregos.

A pesquisa abrangente sugere que estamos em um ponto de inflexão onde as interfaces de IA conversacionais podem mudar fundamentalmente a forma como os humanos interagem com o software — embora a realização desse potencial exija avanços contínuos tanto na tecnologia subjacente quanto nas práticas de implantação empresarial.

“Esses desenvolvimentos estão lançando as bases para agentes mais versáteis e poderosos, capazes de lidar com ambientes complexos e dinâmicos,” concluem os pesquisadores, apontando para um futuro onde assistentes de IA se tornam uma parte integral de como trabalhamos com computadores.

VB Diário

Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…

BusinessInteligência artificial

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…

Inteligência artificial

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE

[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…