Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder na indústria. Saiba mais
Uma nova pesquisa abrangente realizada por pesquisadores da Microsoft e parceiros acadêmicos revela que agentes de inteligência artificial impulsionados por grandes modelos de linguagem (LLMs) estão se tornando cada vez mais capazes de controlar interfaces gráficas do usuário (GUIs), o que pode mudar a forma como os humanos interagem com o software.
A tecnologia essencialmente fornece aos sistemas de IA a capacidade de visualizar e manipular interfaces de computador da mesma forma que os humanos — clicando em botões, preenchendo formulários e navegando entre aplicativos. Em vez de exigir que os usuários aprendam comandos complexos de software, esses “agentes GUI” podem interpretar solicitações em linguagem natural e executar automaticamente as ações necessárias.
“Esses agentes representam uma mudança de paradigma, permitindo que os usuários realizem tarefas complexas e em várias etapas por meio de comandos conversacionais simples,” escrevem os pesquisadores em seu estudo. “Suas aplicações abrangem navegação na web, interações com aplicativos móveis e automação de desktop, oferecendo uma experiência transformadora que revoluciona a forma como os indivíduos interagem com o software.”
Pense nisso como ter um assistente executivo altamente qualificado que pode operar qualquer programa de software em seu nome. Você simplesmente diz ao assistente o que deseja realizar, e ele cuida de todos os detalhes técnicos para fazer isso acontecer.
A ascensão dos assistentes de IA corporativos muda tudo
Grandes empresas de tecnologia já estão correndo para incorporar essas capacidades em seus produtos. O Power Automate da Microsoft usa LLMs para ajudar os usuários a criar fluxos de trabalho automatizados entre aplicativos. O Assistente de IA Copilot da empresa pode controlar diretamente o software com base em comandos de texto. A funcionalidade de Uso de Computador da Claude, da Anthropic, permite que a IA interaja com interfaces da web e realize tarefas complexas. A Google está supostamente desenvolvendo o Projeto Jarvis, um sistema de IA que utilizaria o navegador Chrome para realizar tarefas baseadas na web, como pesquisa, compras e reservas de viagens, embora essa capacidade ainda esteja em desenvolvimento e não tenha sido lançada publicamente.
“O advento dos Modelos de Linguagem de Grande Escala, particularmente os modelos multimodais, inaugurou uma nova era de automação de GUI,” observa o artigo. “Eles demonstraram capacidades excepcionais em compreensão de linguagem natural, geração de código, generalização de tarefas e processamento visual.”
Isso representa uma potencial $68,9 bilhões de oportunidade de mercado até 2028, segundo analistas da BCC Research, à medida que as empresas buscam automatizar tarefas repetitivas e tornar seu software mais acessível a usuários não técnicos. O mercado projeta-se que cresça de $8,3 bilhões em 2022 para esse valor, com uma taxa de crescimento anual composta (CAGR) de 43,9% durante o período de previsão.
O impacto na empresa: Desafios e oportunidades na automação de IA
No entanto, obstáculos significativos permanecem antes que a tecnologia veja uma adoção empresarial generalizada. Os pesquisadores identificam várias limitações-chave, incluindo preocupações com a privacidade quando agentes lidam com dados sensíveis, restrições de desempenho computacional e a necessidade de garantias melhores de segurança e confiabilidade.
“Embora sejam eficazes para fluxos de trabalho pré-definidos, esses métodos carecem da flexibilidade e adaptabilidade necessárias para aplicações dinâmicas do mundo real,” afirmam os pesquisadores sobre abordagens anteriores de automação.
A equipe de pesquisa fornece um roteiro detalhado para enfrentar esses desafios, enfatizando a importância de desenvolver modelos mais eficientes que possam funcionar localmente em dispositivos, implementar medidas de segurança robustas e criar estruturas de avaliação padronizadas.
“Ao incorporar salvaguardas e ações personalizáveis, esses agentes garantem eficiência e segurança ao lidar com comandos complexos,” observam os pesquisadores, destacando os recentes avanços em tornar a tecnologia pronta para o ambiente corporativo.
Para os líderes de tecnologia empresarial, o surgimento de agentes de GUI alimentados por LLM representa tanto uma oportunidade quanto uma consideração estratégica. Embora a tecnologia prometa ganhos significativos de produtividade por meio da automação, as organizações precisarão avaliar cuidadosamente as implicações de segurança e os requisitos de infraestrutura para a implantação desses sistemas de IA.
“O campo dos agentes de GUI está se movendo em direção a arquiteturas de múltiplos agentes, capacidades multimodais, conjuntos de ações diversos e novas estratégias de tomada de decisão,” explica o artigo. “Essas inovações marcam passos significativos em direção à criação de agentes inteligentes e adaptáveis, capazes de alto desempenho em ambientes variados e dinâmicos.”
Especialistas da indústria preveem que até 2025, pelo menos 60% das grandes empresas estarão testando algum tipo de agentes de automação de GUI, potencialmente levando a grandes ganhos de eficiência, mas também levantando questões importantes sobre privacidade de dados e deslocamento de empregos.
A pesquisa abrangente sugere que estamos em um ponto de inflexão onde as interfaces de IA conversacionais podem mudar fundamentalmente a forma como os humanos interagem com o software — embora a realização desse potencial exija avanços contínuos tanto na tecnologia subjacente quanto nas práticas de implantação empresarial.
“Esses desenvolvimentos estão lançando as bases para agentes mais versáteis e poderosos, capazes de lidar com ambientes complexos e dinâmicos,” concluem os pesquisadores, apontando para um futuro onde assistentes de IA se tornam uma parte integral de como trabalhamos com computadores.
VB Diário
Mantenha-se informado! Receba as últimas notícias em sua caixa de entrada diariamente
Ao se inscrever, você concorda com os Termos de Serviço da VentureBeat.
Obrigado por se inscrever. Confira mais boletins do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
A Intel já recebeu $2,2 bilhões em subsídios federais para a produção de chips.
[the_ad id="145565"] A gigante do semicondutor Intel Corporation já recebeu $2,2 bilhões em subsídios federais do Departamento de Comércio dos EUA por meio da Lei CHIPS e…
Ex-líderes do Google e Meta lançam a Palona AI, trazendo agentes de atendimento personalizados e emocionais para empresas não tecnológicas
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de liderança no setor. Saiba…
A Índia elogia o laboratório de IA chinês DeepSeek e planeja hospedar seus modelos em servidores locais.
[the_ad id="145565"] O ministro de TI da Índia elogiou, na quinta-feira, o progresso da DeepSeek e afirmou que o país hospedará os modelos de linguagem de grande porte do…