Inscreva-se em nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder no setor. Saiba Mais
O gigante adormecido despertou!
Por um tempo, parecia que a Amazon estava correndo atrás na corrida para oferecer aos usuários — especialmente os milhões de desenvolvedores que trabalham na infraestrutura de nuvem da Amazon Web Services (AWS) — modelos e ferramentas de IA de primeira linha atraentes.
No final de 2024, a empresa lançou sua própria família de modelos de fundação interna, o Amazon Nova, com capacidades de geração de texto, imagem e até mesmo vídeo. O mês passado viu um novo assistente de voz da Amazon Alexa alimentado em parte pela família de modelos Claude da Anthropic.
Então, na segunda-feira, a divisão de inteligência geral artificial da Amazon, Amazon AGI, anunciou o lançamento do Amazon Nova Act, um kit de desenvolvedor experimental para construir agentes de IA que podem navegar na web e completar tarefas de forma autônoma, alimentado por uma versão personalizada e proprietária do grande modelo de linguagem (LLM) Nova da Amazon. Ah, e o kit de desenvolvedor padrão (SDK) é open source sob uma licença permissiva Apache 2.0, embora o SDK seja projetado para funcionar apenas com o modelo Nova personalizado da Amazon, e não com terceiros.
O objetivo é permitir que desenvolvedores terceirizados construam agentes de IA capazes de realizar tarefas de forma confiável dentro de navegadores da web.
Mas como o Nova Act da Amazon se compara a outras plataformas de construção de agentes disponíveis no mercado, como o AutoGen da Microsoft, o Agentforce da Salesforce e, claro, o recentemente lançado Agents SDK da OpenAI?
Uma abordagem diferente e mais reflexiva para agentes de IA
Desde a ascensão pública dos grandes modelos de linguagem (LLMs), a maioria dos sistemas de “agentes” tem se limitado a responder em linguagem natural ou fornecer informações consultando bases de conhecimento.
O Nova Act é parte da mudança maior da indústria em direção a agentes baseados em ação—sistemas que podem realizar tarefas reais em ambientes digitais em nome do usuário. A nova API de Respostas da OpenAI, que dá aos usuários acesso ao seu navegador autônomo, é um exemplo líder disso, que os desenvolvedores podem integrar em agentes de IA através do OpenAI Agents SDK.
A Amazon AGI enfatiza que os sistemas de agentes atuais, embora promissores, lutam com a confiabilidade e muitas vezes exigem supervisão humana, especialmente ao lidar com fluxos de trabalho complexos ou de múltiplas etapas.
O Nova Act foi especificamente projetado para abordar essas limitações, fornecendo um conjunto de comandos atômicos e prescritivos que podem ser encadeados em fluxos de trabalho confiáveis.
Deniz Birlikci, um Membro da Equipe Técnica da Amazon, descreveu a visão mais ampla em um vídeo que apresenta o Nova Act: em breve, haverá mais agentes de IA do que pessoas navegando na web, realizando tarefas em nome dos usuários.
David Luan, VP da Equipe de Autonomia da Amazon e Chefe do Laboratório AGI de SF, formulou a missão de forma mais direta em uma recente entrevista por videoconferência com a VentureBeat: “Criamos este novo modelo experimental de IA que é treinado para realizar ações em um navegador da web. Fundamentalmene, acreditamos que agentes são o bloco de construção da computação,” disse ele.
Luan, ex-cofundador e CEO da Adept AI, juntou-se à Amazon em 2024 como parte de uma aquisição. Luan disse que sempre foi um defensor dos agentes de IA. “Com a Adept, fomos a primeira empresa a realmente começar a trabalhar com agentes de IA. Neste ponto, todo mundo sabe como os agentes são importantes. Foi bastante legal estar um pouco à frente do nosso tempo,” acrescentou.
O que o Nova Act oferece aos desenvolvedores
O SDK do Nova Act oferece aos desenvolvedores uma estrutura para construir agentes de automação baseados na web usando prompts de linguagem natural divididos em etapas claras e gerenciáveis.
Diferente dos agentes típicos alimentados por LLMs que tentam fluxos de trabalho inteiros a partir de um único prompt—resultando frequentemente em comportamentos pouco confiáveis—o Nova Act é projetado para executar incrementalmente tarefas menores e verificáveis.
Alguns dos recursos principais do Nova Act incluem:
- Decomposição de Tarefas Bem Definida: Os desenvolvedores podem dividir fluxos de trabalho digitais complexos em chamadas act(), cada uma orientando o agente a realizar interações específicas com a interface do usuário.
- Manipulação Direta do Navegador via Playwright: O Nova Act integra-se ao Playwright, uma estrutura de automação de navegador de código aberto desenvolvida pela Microsoft. O Playwright permite que os desenvolvedores controlem navegadores da web programaticamente—clicando em elementos, preenchendo formulários ou navegando por páginas—sem depender apenas de previsões de IA. Essa integração é particularmente útil para lidar com tarefas sensíveis, como inserir senhas ou dados de cartões de crédito. Por exemplo, ao invés de enviar informações sensíveis para o modelo, os desenvolvedores podem instruir o Nova Act a focar em um campo de senha e, em seguida, utilizar as APIs do Playwright para inserir a senha de forma segura, sem que o modelo nunca “veja” isso. Essa abordagem contribui para fortalecer a segurança e a privacidade ao automatizar interações na web.
- Integração com Python: O SDK permite que os desenvolvedores intercalem código Python com comandos do Nova Act, incluindo ferramentas padrão do Python, como pontos de interrupção, asserções ou agrupamento de threads para execução paralela.
- Extração Estruturada de Informações: O SDK suporta a extração de dados estruturados através de esquemas Pydantic, permitindo que agentes convertam conteúdo de tela em formatos estruturados.
- Paralelização e Agendamento: Os desenvolvedores podem executar múltiplas instâncias do Nova Act simultaneamente e programar fluxos de trabalho automatizados sem a necessidade de supervisão humana contínua.
Luan enfatizou que o Nova Act é uma ferramenta para desenvolvedores e não um chatbot de uso geral. “O Nova Act é construído para desenvolvedores. Não é um chatbot que você conversa por diversão. É projetado para permitir que os desenvolvedores comecem a construir produtos úteis,” disse ele.
Por exemplo, um dos fluxos de trabalho de amostra demonstrados na documentação da Amazon mostra como o Nova Act pode automatizar pesquisas de apartamentos, raspando listagens de aluguel e calculando a distância de bicicleta até as estações de trem, em seguida, organizando os resultados em uma tabela estruturada.
Outro exemplo apresentado usa o Nova Act para pedir uma salada específica do Sweetgreen toda terça-feira, de forma totalmente automática e programada, ilustrando como os desenvolvedores podem automatizar tarefas digitais repetitivas de uma maneira que pareça confiável e personalizável.
Desempenho de referência e foco na confiabilidade
Uma mensagem central no anúncio da Amazon é que a confiabilidade, não apenas a inteligência, é a principal barreira para a adoção generalizada de agentes.
Atualmente, modelos de ponta são bastante frágeis ao alimentar agentes de IA, com agentes tipicamente atingindo taxas de sucesso de 30% a 60% em tarefas de múltiplas etapas baseadas em navegador, segundo a Amazon.
No entanto, o Nova Act enfatiza uma abordagem de bloco de construção, alcançando mais de 90% nas avaliações internas de tarefas que desafiam outros modelos—como interações com dropdowns, seletores de data ou pop-ups.
Luan sublinhou por que esse foco na confiabilidade é importante. “No que realmente focamos é em como você realmente torna os agentes confiáveis? Se você pedir para atualizar um registro no Salesforce e ele deletar seu banco de dados uma em cada dez vezes, você provavelmente nunca vai usá-lo novamente,” disse ele.
A Amazon AGI avaliou o Nova Act em relação a modelos concorrentes, incluindo o Claude 3.7 Sonnet da Anthropic e o modelo CUA da OpenAI. No benchmark de Texto Web ScreenSpot, que testa o seguimento de instruções em elementos textuais da tela, o Nova Act obteve uma pontuação de 0,939, superando o Claude 3.7 Sonnet (0,900) e o OpenAI CUA (0,883).

No benchmark de Ícone Web ScreenSpot, que foca em elementos visuais da interface do usuário, o Nova Act obteve uma pontuação de 0,879, novamente à frente dos outros modelos.
No entanto, no benchmark GroundUI Web, que testa a interação geral da interface do usuário, o Nova Act obteve uma pontuação de 0,805, ligeiramente atrás de seus concorrentes.
Essas pontuações foram medidas internamente pela Amazon usando prompts e critérios de avaliação consistentes.
A Amazon também destacou resultados iniciais na capacidade do Nova Act de generalizar além de ambientes padrão.
Por exemplo, o membro da equipe Rick Liu demonstrou como o agente, sem treinamento explícito, interagiu com sucesso em um jogo da web com tema de pombo—atribuindo estatísticas, combatendo oponentes e progredindo no jogo.
De acordo com Luan, essa capacidade de generalização é central para a visão a longo prazo. “Nosso objetivo com o Nova Act é ser uma solução universal para uso em navegadores. Queremos um agente que possa fazer tudo o que você deseja fazer em um computador por você,” disse ele.
Flexível para uso em diferentes nuvens, mas vinculado ao modelo Nova da Amazon
Embora o Nova Act esteja acessível a desenvolvedores em todo o mundo através de nova.amazon.com, Luan esclareceu que o sistema está intimamente ligado aos modelos de fundação Nova da Amazon.
Os desenvolvedores não podem conectar LLMs externos, como o GPT-4 da OpenAI ou o Claude 3.7 Sonnet da Anthropic, ao contrário do Agents SDK da OpenAI, e em menor escala, das plataformas AutoGen da Microsoft e Agentforce da Salesforce (que permitem alternar para algumas diferentes empresas fornecedoras e famílias de modelos).
“O Nova Act é uma versão personalizada treinada do modelo Nova,” disse ele. “Não é apenas uma estrutura sobre um LLM genérico. É treinado nativamente para agir na internet em seu nome.”
No entanto, o Nova Act não está restrito a ambientes AWS. Os desenvolvedores podem baixar o SDK e executá-lo localmente, na nuvem ou onde escolherem. “Você não precisa estar na AWS para usá-lo,” afirmou Luan.
Assim, para empresas que buscam a máxima flexibilidade de modelo subjacente para seus agentes, o Nova Act provavelmente não é a melhor escolha. No entanto, para aqueles que procuram um modelo especificamente projetado para navegar na web e realizar ações em uma ampla variedade de sites com interfaces de usuário (UIs) muito diferentes, esse pode valer a pena conferir — especialmente se você já estiver no ecossistema de desenvolvedor da Amazon ou AWS.
Segurança, licenciamento e preços
O SDK do Nova Act é lançado sob a Licença Apache, Versão 2.0 (janeiro de 2004), uma licença de código aberto. No entanto, isso se aplica apenas ao software do SDK.
O modelo Nova Act em si, juntamente com seus pesos e dados de treinamento, é proprietário e permanece fechado. A abordagem é intencional, de acordo com Luan, que explicou que o modelo está intimamente integrado e co-treinado com o SDK para alcançar confiabilidade.
No lançamento, o Nova Act é oferecido como uma prévia de pesquisa gratuita. Não há preços anunciados para uso em produção ainda.
Luan descreveu essa fase como uma oportunidade para os desenvolvedores experimentarem e construírem com a tecnologia. “Nossa crença é que a maioria dos produtos de agente mais úteis ainda não foi construída. Queremos permitir que qualquer um construa um agente realmente útil, seja para si mesmo ou como um produto,” disse ele.
A longo prazo, a Amazon planeja introduzir termos de produção, incluindo cobrança baseada em uso e garantias de escalonamento, mas esses ainda não estão disponíveis.
O que vem a seguir para o Nova Act?
O lançamento do Nova Act reflete a ambição mais ampla da Amazon de tornar os agentes de IA orientados a ações um componente fundamental da computação.
Luan resumiu a oportunidade à frente: “Meu sonho pessoal é que os agentes se tornem o bloco de construção da computação, e as startups e produtos mais legais sejam construídos sobre o que nossa equipe está desenvolvendo.”
O SDK do Nova Act está disponível agora para experimentação e prototipagem no site da Amazon e no Github.
Perspectivas diárias sobre casos de uso de negócios com o VB Daily
Se você deseja impressionar seu chefe, o VB Daily tem o que você precisa. Nós fornecemos o inside scoop sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Um Avanço Notável em Vídeos de IA Dirigida por Humanos
[the_ad id="145565"] Aviso: A página do projeto para este trabalho contém 33 vídeos em alta resolução com reprodução automática totalizando meio gigabyte, o que desestabilizou…
Midjourney lança a V7, seu primeiro novo modelo de imagem com IA em quase um ano.
[the_ad id="145565"] Midjourney, um dos primeiros geradores de imagens baseados em IA na web, lançou seu primeiro novo modelo de imagem em IA em quase um ano. Denominado V7, o…
Devin, o agente de IA para programação viral, lança um novo plano pay-as-you-go
[the_ad id="145565"] A Cognition, a startup por trás da ferramenta viral de programação AI Devin, lançou um novo plano de baixo custo para incentivar inscrições. Quando a…