Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais


A OpenAI apresentou Operator, seu primeiro agente de IA semi-autônomo, projetado para “operar” um navegador da web da mesma forma que uma pessoa, em seu nome. O agente usa o cursor para apontar e clicar, digita por conta própria, navega na web e executa ações em vários sites, como reservar mesas em restaurantes através do OpenTable e montar pedidos no Instacart e DoorDash. Isso ao invés de estar confinado à interface do ChatGPT ou à interface de programação de aplicativo (API) da OpenAI.

“Este produto é o início de nosso passo em direção aos agentes,” disse o CEO e cofundador Sam Altman em uma demonstração transmitida ao vivo no canal do YouTube da empresa hoje às 13h ET.

O presidente da OpenAI e fellow cofundador Greg Brockman escreveu no X: “2025 é o ano dos agentes.”

A prévia, agora disponível para assinantes pagantes do plano ChatGPT Pro da OpenAI (US$ 200 por mês), visa demonstrar o potencial da IA agente enquanto coleta feedback crítico para refinar suas capacidades.

O Operator não toma conta do seu navegador da web, no entanto. Em vez disso, você visita um novo site separado — operator.chatgpt.com — e se depara com uma caixa de entrada de prompt semelhante ao ChatGPT.

Digitar um pedido nesta caixa — “encontre ingressos para o jogo do LA Lakers hoje à noite” — fará com que o Operator abra um navegador virtual separado rodando na nuvem nos servidores da OpenAI. Em seguida, o agente pode executar tarefas como preencher formulários, gerenciar reservas online, inclusive comprar ingressos para eventos esportivos e concertos, e navegar em outros fluxos de trabalho comuns. O usuário assiste o cursor se mover sozinho no navegador baseado em nuvem em tempo real. Se o agente encontrar um problema, ele irá parar e enviar uma mensagem ao usuário via texto, semelhante às respostas do ChatGPT.

Além disso, abaixo do navegador virtual, o usuário verá sugestões de ações que o Operator pode realizar em seu nome.

No entanto, o usuário pode assumir o controle a qualquer momento — semelhante aos sistemas de direção semi-autônoma em carros modernos. O Operator também pede que o usuário insira seus próprios dados de pagamento quando chega a uma tela de compra em outro site. Por fim, os usuários podem salvar determinados fluxos de trabalho que desejam usar no futuro e reiniciá-los.

O Operator é alimentado por uma tecnologia que a OpenAI chama de agente de uso de computador (CUA), uma nova variante do GPT-4o treinada especificamente para usar computadores.

Unindo IA e Interfaces Gráficas de Usuário (GUIs)

O Operator se destaca de outras ferramentas de automação por mimetizar a interação humana com interfaces gráficas de usuário (GUIs).

Em vez de depender de APIs especializadas, o sistema aproveita capturas de tela para entrada visual e usa ações de mouse e teclado virtuais para completar tarefas.

O modelo CUA subjacente combina as capacidades visuais do GPT-4o com aprendizado por reforço, permitindo que o agente perceba, raciocine e aja na tela.

Essa abordagem permite que o Operator lide com diversas tarefas, incluindo navegação em e-commerce, planejamento de viagens e até tarefas repetitivas como criar playlists ou gerenciar listas de compras. Estudos de referência notáveis ilustram sua eficácia:

87% de taxa de sucesso no WebVoyager, um teste de navegação em sites ao vivo

58,1% de taxa de sucesso no WebArena, que simula cenários reais de e-commerce e gerenciamento de conteúdo

Mas já há uma concorrência acirrada: Ontem, a empresa de tecnologia chinesa ByteDance (empresa-mãe do TikTok) lançou seu próprio agente de IA para controlar navegadores da web e executar ações em nome do usuário. Chamado UI-TARS, é totalmente open-source e ostenta um desempenho igualmente impressionante (embora não pareça ter sido comparado diretamente nos mesmos testes). Isso significa que o Operator da OpenAI precisará ser significativamente melhor ou mais confiável para justificar o custo relativamente alto (US$ 200/mês) de acesso através das assinaturas do ChatGPT Pro.

Já sendo testado em casos de uso de navegação web empresarial

A OpenAI está se associando a várias empresas para garantir que o Operator atenda às necessidades do mundo real. Empresas como Instacart, DoorDash e Etsy já estão testando a tecnologia para casos de uso que vão desde entrega de mantimentos até compras personalizadas.

Brett Keller, CEO da Priceline, comentou sobre sua utilidade para o planejamento de viagens, chamando isso de “um avanço significativo para tornar as viagens mais contínuas e personalizadas.”

Para aplicações no setor público, a cidade de Stockton está explorando maneiras de usar o Operator para simplificar o engajamento cívico. Jamil Niazi, diretor de tecnologia da informação da cidade, destacou o potencial da IA para tornar a inscrição em serviços mais fácil para os residentes.

No entanto, existem limitações. A publicação de tecnologia Every obteve uma prévia e tem testado-a na última semana, descobrindo que:

“Uma das peculiaridades do design do Operator é que ele não usa seu navegador. Em vez disso, usa um navegador em um dos centros de dados da OpenAI que você pode assistir e interagir remotamente. A vantagem dessa decisão de design é que você pode usar o Operator onde e sempre que quiser — por exemplo, em qualquer dispositivo móvel.

“O lado negativo é que muitos sites como o Reddit já bloqueiam agentes de IA de navegar, portanto não podem ser acessados pelo Operator. Nesta versão de pesquisa prévia, o Operator também está bloqueado pela OpenAI de acessar certos sites que consomem muitos recursos, como Figma ou sites de concorrentes como o YouTube por motivos de desempenho ou legais.”

Medidas de segurança

Dada sua capacidade de agir em nome dos usuários, o Operator foi desenvolvido com robustas características de segurança:

Controle do usuário: O Operator solicita confirmação para ações sensíveis, como fazer compras ou enviar e-mails.

Modo de vigilância: Garante supervisão do usuário para tarefas críticas, especialmente em sites sensíveis como e-mail ou plataformas financeiras.

Prevenção de uso indevido: O sistema é treinado para recusar solicitações nocivas e inclui salvaguardas contra ataques adversariais, como prompts maliciosos incorporados em sites.

A OpenAI também incorporou recursos para proteger a privacidade do usuário, incluindo opções para limpar dados de navegação e optar por não compartilhar dados para melhorias no modelo.

Edição empresarial a caminho

A OpenAI prevê um papel mais amplo para o Operator tanto em configurações individuais quanto empresariais. Com o tempo, a empresa planeja expandir o acesso para usuários Plus, Team e Enterprise, eventualmente integrando o Operator ao ChatGPT.

Há também planos para tornar a tecnologia CUA subjacente disponível via API, permitindo que desenvolvedores criem agentes personalizados de uso de computador.

Apesar de seu potencial, o Operator continua sendo um trabalho em progresso. A OpenAI tem sido transparente sobre suas limitações, como dificuldades com interfaces complexas ou fluxos de trabalho desconhecidos. O feedback inicial dos usuários desempenhará um papel fundamental na melhoria da precisão, confiabilidade e segurança do sistema.

À medida que a OpenAI refina o Operator através de uso no mundo real, busca transformar a IA de uma ferramenta passiva em um participante ativo no ecossistema digital. Seja simplificando tarefas cotidianas ou inovando fluxos de trabalho empresariais, a OpenAI está posicionando o Operator como o próximo passo para tornar a IA acessível, prática e segura.





    3 + onze =




    Bolt42