Bolt42

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder na indústria. Saiba mais


Uma nova pesquisa abrangente realizada por pesquisadores da Microsoft e parceiros acadêmicos revela que agentes de inteligência artificial impulsionados por grandes modelos de linguagem (LLMs) estão se tornando cada vez mais capazes de controlar interfaces gráficas do usuário (GUIs), o que pode mudar a forma como os humanos interagem com o software.

A tecnologia essencialmente fornece aos sistemas de IA a capacidade de visualizar e manipular interfaces de computador da mesma forma que os humanos — clicando em botões, preenchendo formulários e navegando entre aplicativos. Em vez de exigir que os usuários aprendam comandos complexos de software, esses “agentes GUI” podem interpretar solicitações em linguagem natural e executar automaticamente as ações necessárias.

“Esses agentes representam uma mudança de paradigma, permitindo que os usuários realizem tarefas complexas e em várias etapas por meio de comandos conversacionais simples,” escrevem os pesquisadores em seu estudo. “Suas aplicações abrangem navegação na web, interações com aplicativos móveis e automação de desktop, oferecendo uma experiência transformadora que revoluciona a forma como os indivíduos interagem com o software.”

Pense nisso como ter um assistente executivo altamente qualificado que pode operar qualquer programa de software em seu nome. Você simplesmente diz ao assistente o que deseja realizar, e ele cuida de todos os detalhes técnicos para fazer isso acontecer.

Esta linha do tempo ilustra o crescimento rápido de agentes de IA capazes de controlar software, com um aumento de novos modelos de pesquisadores e empresas de tecnologia surgindo desde 2023, classificados por suas aplicações em plataformas web, móveis e de computador. (Crédito: arxiv.org)

A ascensão dos assistentes de IA corporativos muda tudo

Grandes empresas de tecnologia já estão correndo para incorporar essas capacidades em seus produtos. O Power Automate da Microsoft usa LLMs para ajudar os usuários a criar fluxos de trabalho automatizados entre aplicativos. O Assistente de IA Copilot da empresa pode controlar diretamente o software com base em comandos de texto. A funcionalidade de Uso de Computador da Claude, da Anthropic, permite que a IA interaja com interfaces da web e realize tarefas complexas. A Google está supostamente desenvolvendo o Projeto Jarvis, um sistema de IA que utilizaria o navegador Chrome para realizar tarefas baseadas na web, como pesquisa, compras e reservas de viagens, embora essa capacidade ainda esteja em desenvolvimento e não tenha sido lançada publicamente.

“O advento dos Modelos de Linguagem de Grande Escala, particularmente os modelos multimodais, inaugurou uma nova era de automação de GUI,” observa o artigo. “Eles demonstraram capacidades excepcionais em compreensão de linguagem natural, geração de código, generalização de tarefas e processamento visual.”

Isso representa uma potencial $68,9 bilhões de oportunidade de mercado até 2028, segundo analistas da BCC Research, à medida que as empresas buscam automatizar tarefas repetitivas e tornar seu software mais acessível a usuários não técnicos. O mercado projeta-se que cresça de $8,3 bilhões em 2022 para esse valor, com uma taxa de crescimento anual composta (CAGR) de 43,9% durante o período de previsão.

O impacto na empresa: Desafios e oportunidades na automação de IA

No entanto, obstáculos significativos permanecem antes que a tecnologia veja uma adoção empresarial generalizada. Os pesquisadores identificam várias limitações-chave, incluindo preocupações com a privacidade quando agentes lidam com dados sensíveis, restrições de desempenho computacional e a necessidade de garantias melhores de segurança e confiabilidade.

“Embora sejam eficazes para fluxos de trabalho pré-definidos, esses métodos carecem da flexibilidade e adaptabilidade necessárias para aplicações dinâmicas do mundo real,” afirmam os pesquisadores sobre abordagens anteriores de automação.

A equipe de pesquisa fornece um roteiro detalhado para enfrentar esses desafios, enfatizando a importância de desenvolver modelos mais eficientes que possam funcionar localmente em dispositivos, implementar medidas de segurança robustas e criar estruturas de avaliação padronizadas.

“Ao incorporar salvaguardas e ações personalizáveis, esses agentes garantem eficiência e segurança ao lidar com comandos complexos,” observam os pesquisadores, destacando os recentes avanços em tornar a tecnologia pronta para o ambiente corporativo.

Para os líderes de tecnologia empresarial, o surgimento de agentes de GUI alimentados por LLM representa tanto uma oportunidade quanto uma consideração estratégica. Embora a tecnologia prometa ganhos significativos de produtividade por meio da automação, as organizações precisarão avaliar cuidadosamente as implicações de segurança e os requisitos de infraestrutura para a implantação desses sistemas de IA.

“O campo dos agentes de GUI está se movendo em direção a arquiteturas de múltiplos agentes, capacidades multimodais, conjuntos de ações diversos e novas estratégias de tomada de decisão,” explica o artigo. “Essas inovações marcam passos significativos em direção à criação de agentes inteligentes e adaptáveis, capazes de alto desempenho em ambientes variados e dinâmicos.”

Especialistas da indústria preveem que até 2025, pelo menos 60% das grandes empresas estarão testando algum tipo de agentes de automação de GUI, potencialmente levando a grandes ganhos de eficiência, mas também levantando questões importantes sobre privacidade de dados e deslocamento de empregos.

A pesquisa abrangente sugere que estamos em um ponto de inflexão onde as interfaces de IA conversacionais podem mudar fundamentalmente a forma como os humanos interagem com o software — embora a realização desse potencial exija avanços contínuos tanto na tecnologia subjacente quanto nas práticas de implantação empresarial.

“Esses desenvolvimentos estão lançando as bases para agentes mais versáteis e poderosos, capazes de lidar com ambientes complexos e dinâmicos,” concluem os pesquisadores, apontando para um futuro onde assistentes de IA se tornam uma parte integral de como trabalhamos com computadores.





    dezessete − catorze =




    Bolt42