Bolt42

Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais

Uma nova onda de agentes de navegação impulsionados por IA está surgindo, prometendo transformar a maneira como as empresas interagem com a web. Esses agentes podem navegar autonomamente em sites, recuperar informações e até completar transações – mas os testes iniciais revelam lacunas significativas entre a promessa e o desempenho.

Embora exemplos de consumo oferecidos pelo novo agente de navegação da OpenAI, Operator, como pedir pizza ou comprar ingressos para jogos, tenham chamado a atenção, a questão gira em torno de onde estão os principais desenvolvimentos e casos de uso empresarial. “A coisa que não sabemos é qual será o aplicativo matador”, disse Sam Witteveen, cofundador da Red Dragon, uma empresa que desenvolve aplicativos de agentes de IA. “Meu palpite é que serão coisas que simplesmente tomam tempo na web que você não realmente desfruta.” Isso inclui atividades como pesquisar o preço mais baixo de um produto ou reservar as melhores acomodações em hotéis. É mais provável que eles sejam usados em combinação com outras ferramentas como a Deep Research, onde as empresas podem realizar pesquisas ainda mais sofisticadas além da execução de tarefas na web.

As empresas precisam avaliar cuidadosamente o panorama em rápida evolução, à medida que players estabelecidos e startups adotam abordagens diferentes para resolver o desafio da navegação autônoma.

Principais players no campo dos agentes de navegação

O campo rapidamente se tornou lotado, com grandes empresas de tecnologia e startups inovadoras:

  • Operator e Proxy estão entre os mais avançados, sendo amigáveis ao consumidor e prontos para uso imediato. Muitos dos outros parecem estar se posicionando mais para uso de desenvolvedores ou empresas. Por exemplo, o Browser Use, uma startup do Y-Combinator que permite aos usuários personalizar os modelos usados com o agente. Isso dá mais controle sobre como o agente funciona, inclusive usando um modelo do seu próprio computador. Mas é definitivamente mais envolvente.
  • Os outros listados acima oferecem um grau variável de funcionalidade e interação com os recursos da máquina local. Eu decidi não testar a UI-TARS da ByteDance por enquanto, pois ela pediu acesso de nível inferior aos recursos de segurança e privacidade do meu computador (se eu testar, definitivamente usarei um computador secundário).

Testes revelam desafios de raciocínio

Os mais fáceis de testar são o Operator da OpenAI e o Proxy da Convergence. Em nossos testes, os resultados destacaram como as capacidades de raciocínio podem ser mais importantes do que os recursos de automação bruta. O Operator, em particular, apresentou mais erros.

Por exemplo, pedi aos agentes que encontrassem e resumissem as cinco histórias mais populares do VentureBeat. A tarefa era ambígua, pois o VentureBeat não possui uma seção de “mais populares”, por si só. O Operator teve dificuldade com isso. Ele primeiro caiu em um loop de rolagem infinita ao procurar por histórias ‘mais populares’, exigindo intervenção manual. Em outra tentativa, encontrou um artigo de três anos intitulado “As cinco principais histórias da semana”. Em contraste, o Proxy demonstrou um raciocínio melhor identificando as cinco histórias mais visíveis na homepage como um proxy prático para a popularidade e forneceu resumos precisos.

A distinção se tornou ainda mais clara em tarefas do mundo real. Pedi aos agentes para reservar uma mesa em um restaurante romântico ao meio-dia em Napa, Califórnia. O Operator abordou a tarefa de forma linear – encontrando primeiro um restaurante romântico, depois verificando a disponibilidade ao meio-dia. Quando nenhuma mesa estava disponível, ele atingiu um beco sem saída. O Proxy mostrou um raciocínio mais sofisticado, começando com o OpenTable para encontrar restaurantes que eram tanto românticos quanto disponíveis na hora desejada. Ele ainda voltou com um restaurante com uma classificação ligeiramente melhor.

Mesmo tarefas que parecem simples revelaram diferenças importantes. Ao buscar o “preço do YubiKey 5C NFC” na Amazon, o Proxy rapidamente encontrou o item com mais facilidade do que o Operator.

A OpenAI não divulgou muitos detalhes sobre as tecnologias que utiliza para treinar seu agente Operator, além de afirmar que treinou seu modelo em tarefas de navegação. A Convergence, no entanto, forneceu mais detalhes: Seu agente utiliza algo chamado Generative Tree Search para “aproveitar Modelos de Web-Mundo que prevêm o estado da web após uma ação proposta ter sido tomada. Estes são gerados recursivamente para produzir uma árvore de futuros possíveis que são pesquisados para selecionar a próxima ação ótima, classificada por nossos modelos de valor. Nossos modelos de Web-Mundo também podem ser usados para treinar agentes em situações hipotéticas sem gerar muitos dados caros.” (Mais aqui).

Benchmarks podem ser inúteis por enquanto

No papel, essas ferramentas parecem estar amplamente equiparadas. O Proxy da Convergence alcança 88% no benchmark WebVoyager, que avalia agentes da web em 643 tarefas do mundo real em 15 sites populares, como Amazon e Booking.com. O Operator da OpenAI marca 87%, enquanto o Browser-Use afirma alcançar 89%, mas somente após alterar ligeiramente a base de código do WebVoyager, admitiu, “de acordo com nossas necessidades”.

Essas pontuações de benchmark devem ser vistas com ceticismo, pois podem ser manipuladas. O verdadeiro teste vem no uso prático para casos do mundo real. É muito cedo, o espaço é tão rapidamente mutável e esses produtos estão mudando quase diariamente. Os resultados dependerão mais das tarefas específicas que você está tentando realizar, e você pode querer se basear nas impressões que tem ao usar os diferentes produtos.

Implicações para empresas

As implicações para a automação empresarial são significativas. Como Witteveen aponta em nossa conversa no podcast em vídeo sobre essa tendência de agentes de navegação, onde fazemos uma análise aprofundada, muitas empresas estão atualmente pagando por assistentes virtuais – operados por pessoas reais – para lidar com tarefas básicas de pesquisa na web e coleta de dados. Esses agentes de navegação poderiam mudar substancialmente essa equação.

“Se a IA assumir isso”, observa Witteveen, “algumas das primeiras frutas de baixo custo em que as pessoas perderão seus empregos estarão nessas coisas.”

Isso pode se alimentar na tendência de automação de processos robóticos (RPA), onde a navegação na web é incorporada como mais uma ferramenta para as empresas automatizarem mais tarefas. E como mencionado anteriormente, os casos de uso mais poderosos surgirão quando um agente combinar a navegação na web com outras ferramentas, incluindo coisas como a Deep Research, onde um agente alimentado por LLM usa uma ferramenta de busca além da navegação para realizar trabalhos mais sofisticados.

Dinâmicas de custo impulsionando a inovação

Outro fator chave que impulsiona o rápido desenvolvimento é a disponibilidade de modelos de raciocínio poderosos de código aberto, como o DeepSeek-R1. Isso permite que as empresas que constroem esses agentes de navegação na web compitam efetivamente com os jogadores maiores, aproveitando esses modelos em vez de construir os seus próprios.

A pressão de preços já é evidente. Enquanto a OpenAI exige uma assinatura mensal de $200 do ChatGPT Pro para acessar o Operator, a Convergence oferece uso limitado gratuito (de até cinco usos por dia) e um plano ilimitado de $20/mês. Essa dinâmica competitiva deve acelerar a adoção nas empresas, embora casos de uso claros ainda estejam surgindo.

Desafios de segurança e integração

Vários obstáculos permanecem antes da aceitação generalizada por empresas. Alguns sites bloqueiam ativamente a navegação automatizada, enquanto outros exigem verificação CAPTCHA. Embora a OpenAI e a Convergence tenham ferramentas que podem contornar CAPTCHAs, elas permitem que os usuários assumam a tarefa de preenchê-los – em vez de realizá-los diretamente, já que o objetivo dos CAPTCHAs é garantir que um humano esteja do outro lado. Ferramentas como a UI-TARS da ByteDance solicitam acesso profundo ao sistema, o que levanta preocupações de segurança para implantá-las em empresas.

Além disso, a abordagem para cooperação com sites varia. A OpenAI trabalhou com parceiros específicos como Instacart, Priceline, DoorDash e Etsy, enquanto outros tentam navegar em qualquer site. Essa inconsistência pode impactar a confiabilidade para casos de uso empresarial. E, claro, toda vez que um agente acessa um site que requer detalhes de login, isso irá atrasar as coisas – já que os agentes passarão esse momento para você preencher os detalhes.

Olhando para o futuro

Para empresas que avaliam essas ferramentas, o foco deve estar em casos de uso específicos onde a interação autônoma na web poderia fornecer valor claro – seja em pesquisa, atendimento ao cliente ou automação de processos. A tecnologia está progredindo rapidamente, mas o sucesso dependerá da combinação das capacidades com necessidades concretas de negócios.

À medida que esse espaço evolui, espera-se ver mais recursos focados em empresas e potencialmente agentes especializados para indústrias ou tarefas específicas. A corrida entre players estabelecidos e startups inovadoras deve impulsionar tanto o avanço técnico quanto a precificação competitiva, tornando 2025 um ano crucial para a adoção de agentes de navegação empresarial.

Para mais detalhes sobre essas tendências e resultados de testes, confira a conversa completa em vídeo entre Sam Witteveen e eu.

Uma visão diária sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem a solução. Nós trazemos as novidades sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.


    6 − cinco =

    Bolt42