Bolt42

Participe de nossos boletins diários e semanais para obter as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais


O cenário de agentes de IA de uso geral está repentinamente muito mais lotado e ambicioso.

Esta semana, a startup de Palo Alto chamada Genspark lançou o que chama de Super Agent, um sistema autônomo em rápida evolução, projetado para lidar com tarefas do mundo real em uma ampla gama de domínios – incluindo alguns que levantam sobrancelhas, como fazer chamadas para restaurantes usando uma voz sintética realista.

O lançamento adiciona combustível a um novo front importante na competição de IA: quem construirá o primeiro agente de uso geral confiável, flexível e realmente útil? Talvez mais urgentemente, o que isso significa para as empresas?

O lançamento do Super Agent pela Genspark vem apenas três semanas após outra startup fundada na China, Manus, ter ganhado atenção por sua capacidade de coordenar ferramentas e fontes de dados para completar tarefas em nuvem assíncronas, como reservas de viagem, triagem de currículos e análise de ações – tudo isso sem a supervisão típica da maioria dos agentes atuais.

A Genspark agora alega ir ainda mais longe. De acordo com o cofundador Eric Jing, o Super Agent é construído sobre três pilares: um concerto de nove LLMs diferentes, mais de 80 ferramentas e mais de 10 conjuntos de dados proprietários – todos funcionando juntos em um fluxo coordenado. Ele vai muito além dos chatbots tradicionais, lidando com fluxos de trabalho complexos e retornando resultados totalmente executados.

Em uma demonstração, o agente da Genspark planejou uma viagem de cinco dias a San Diego, calculou distâncias caminhando entre atrações, mapeou opções de transporte público e, em seguida, usou um agente de chamada de voz para reservar restaurantes, incluindo gerenciar alergias alimentares e preferências de assento. Outro exemplo mostrou o agente criando uma vinheta de vídeo de culinária, gerando etapas de receita, cenas de vídeo e sobreposições de áudio. Em um terceiro, ele escreveu e produziu um episódio animado estilo South Park, brincando com o recente escândalo político Signalgate envolvendo o compartilhamento de planos de guerra com um repórter político.

Isso pode parecer focado no consumidor, mas demonstra para onde a tecnologia está indo – em direção à automação de tarefas multimodais e de múltiplas etapas que borram a linha entre a geração criativa e a execução.

“Resolver esses problemas do mundo real é muito mais difícil do que pensávamos”, diz Jing no vídeo, “mas estamos animados com o progresso que fizemos.”

Um recurso atraente: o Super Agent visualiza claramente seu processo de pensamento, traçando como raciocina a cada passo, quais ferramentas invoca e por quê. Observar essa lógica se desenrolar em tempo real faz o sistema parecer menos uma caixa-preta e mais um parceiro colaborativo. Isso também pode inspirar desenvolvedores empresariais a construir caminhos de raciocínio rastreáveis em seus próprios sistemas de IA, tornando as aplicações mais transparentes e confiáveis.

O Super Agent também foi surpreendentemente fácil de testar. A interface foi lançada suavemente em um navegador sem necessidade de configuração técnica. A Genspark permite que os usuários comecem a testar sem exigir credenciais pessoais. Em contraste, a Manus ainda requer que os solicitantes entrem em uma lista de espera e divulguem contas sociais e outras informações privadas, adicionando atrito à experimentação.

Escrevemos pela primeira vez sobre a Genspark em novembro, quando lançou relatórios financeiros impulsionados por Claude. Ela já levantou pelo menos US$ 160 milhões em duas rodadas e é apoiada por investidores dos EUA e de Cingapura.

Assista à mais recente discussão em vídeo entre o desenvolvedor de agentes de IA Sam Witteveen e eu aqui para uma análise mais profunda de como a abordagem da Genspark se compara a outras estruturas de agentes e por que isso é importante para as equipes de IA empresariais.

Como a Genspark está conseguindo isso?

A abordagem da Genspark se destaca porque navega por um desafio de engenharia de IA de longa data: orquestração de ferramentas em grande escala.

A maioria dos agentes atuais quebram ao lidar com mais do que algumas APIs externas ou ferramentas. O Super Agent da Genspark parece gerenciar isso melhor, provavelmente usando roteamento de modelos e seleção baseada em recuperação para escolher ferramentas e sub-modelos de forma dinâmica com base na tarefa.

Essa estratégia ecoa a pesquisa emergente em torno do CoTools, uma nova estrutura da Universidade de Soochow na China que aprimora a forma como os LLMs utilizam conjuntos de ferramentas extensivos e em evolução. Diferente de abordagens mais antigas que dependem fortemente de engenharia de prompt ou ajuste rígido, o CoTools mantém o modelo base “congelado” enquanto treina componentes menores para julgar, recuperar e chamar ferramentas de forma eficiente.

Outro facilitador é o Modelo de Protocolo de Contexto (MCP), um padrão menos conhecido, mas cada vez mais adotado, que permite que agentes transportem contextos mais ricos de ferramentas e memória entre as etapas. Combinado com os conjuntos de dados proprietários da Genspark, o MCP pode ser uma das razões pelas quais seu agente parece mais “steerable” do que as alternativas.

Como isso se compara à Manus?

A Genspark não é a primeira startup a promover agentes gerais. Manus, lançada no mês passado pela empresa chinesa Monica, teve grande repercussão com seu sistema multi-agente, que opera ferramentas como um navegador da web, editor de código ou mecanismo de planilha para completar tarefas em múltiplas etapas.

A eficiente integração de partes de código aberto pela Manus, incluindo ferramentas web e LLMs como Claude da Anthropic, foi surpreendente. Apesar de não construir um conjunto de modelo próprio, ainda superou a OpenAI no benchmark GAIA – um teste sintético projetado para avaliar a automação de tarefas do mundo real por agentes.

Por outro lado, a Genspark afirma ter superado a Manus, marcando 87,8% no GAIA – à frente dos 86% reportados pela Manus – e fazendo isso com uma arquitetura que inclui componentes proprietários e uma cobertura de ferramentas mais ampla.

Os grandes players de tecnologia: ainda jogando seguro?

Enquanto isso, as maiores empresas de IA dos EUA têm sido cautelosas.

A principal oferta de agente de IA da Microsoft, o Copilot Studio, foca em agentes verticais ajustados que se alinham estreitamente com aplicativos empresariais como Excel e Outlook. O SDK de Agentes da OpenAI oferece blocos de construção, mas não chega a fornecer um agente completo e multifuncional. O Amazon anunciou recentemente o Nova Act, que adota uma abordagem mais voltada para desenvolvedores, oferecendo ações atômicas baseadas em navegador via SDK, mas intimamente ligado ao seu LLM Nova e infraestrutura em nuvem.

Essas abordagens são mais modulares, mais seguras e claramente direcionadas ao uso empresarial. Mas carecem da ambição – ou autonomia – demonstrada na demonstração da Genspark.

Uma razão pode ser a aversão ao risco. O custo reputacional poderia ser alto se um agente geral do Google ou Microsoft reservar um voo errado ou disser algo estranho durante uma chamada de voz. Essas empresas também estão presas em seus próprios ecossistemas de modelos, limitando sua flexibilidade para experimentar com a orquestração de múltiplos modelos.

Startups como a Genspark, por outro lado, têm a liberdade para misturar e combinar LLMs – e para agir rapidamente.

As empresas devem se importar?

Essa é a pergunta estratégica. A maioria das empresas não precisa de um agente de uso geral para fazer reservas de jantar ou produzir desenhos satíricos. Mas em breve pode precisar de agentes que possam lidar com tarefas específicas de domínio e em múltiplas etapas, como fornecer e formatar dados de conformidade, orquestrar o onboarding de clientes ou produzir conteúdo em vários formatos.

Nesse contexto, o trabalho da Genspark se torna mais relevante. Quanto mais contínuos e autônomos os agentes gerais se tornarem – e quanto mais integrarem a voz, a memória e as ferramentas externas – mais poderão começar a competir com aplicações SaaS legadas e plataformas RPA.

E eles estão fazendo isso com uma infraestrutura mais leve. A Genspark, por exemplo, afirma que seu agente é “super steerable” e utilizável por profissionais de marketing, professores, recrutadores, designers e analistas – tudo com configuração mínima.

A era do agente geral não é mais hipotética. Ela está aqui – e está se movendo rapidamente.

Assista ao vídeo aqui:





    quinze − treze =




    Bolt42