À medida que os grandes modelos de linguagem (LLMs) evoluem rapidamente, sua promessa como poderosos assistentes de pesquisa também aumenta. Cada vez mais, eles não estão apenas respondendo a perguntas factuais simples, mas assumindo tarefas de “pesquisa profunda”, que envolvem raciocínio em múltiplas etapas, avaliação de informações conflitantes, busca de dados na web e síntese em uma saída coerente.
Essa nova capacidade está sendo comercializada sob diferentes nomes por grandes laboratórios—OpenAI a chama de “Pesquisa Profunda”, a Anthropic refere-se a ela como “Pensamento Estendido”, o Gemini do Google oferece recursos “Pesquisa + Pro”, e a Perplexity a rotula como “Pesquisa Pro” ou “Pesquisa Profunda”. Mas quão eficazes são essas ofertas na prática? Um novo relatório da FutureSearch, intitulado Deep Research Bench (DRB): Avaliando Agentes de Pesquisa na Web, oferece a avaliação mais rigorosa até o momento—e os resultados revelam tanto capacidades impressionantes quanto deficiências críticas.
O Que É o Deep Research Bench?
Criado pela equipe da FutureSearch, o Deep Research Bench é um benchmark meticulosamente construído para avaliar o desempenho de agentes de IA em tarefas de pesquisa baseadas na web e em múltiplas etapas. Estas não são perguntas simples com respostas diretas—elas refletem os desafios abertos e complexos enfrentados por analistas, formuladores de políticas e pesquisadores em cenários do mundo real.
O benchmark inclui 89 tarefas distintas em 8 categorias, como:
- Encontrar Número: por exemplo, “Quantas revogações de dispositivos médicos da classe II da FDA ocorreram?”
- Validar Afirmativa: por exemplo, “O ChatGPT é 10x mais intensivo em energia do que a Pesquisa do Google?”
- Compilar Conjunto de Dados: por exemplo, “Tendências de emprego para desenvolvedores de software nos EUA de 2019 a 2023”
Cada tipo de tarefa é cuidadosamente estruturado com respostas verificadas por humanos e avaliado usando um conjunto de dados congelado de páginas da web, conhecido como RetroSearch. Isso garante consistência nas avaliações dos modelos, evitando o estado flutuante da web ao vivo.
A Arquitetura do Agente: ReAct e RetroSearch
No coração do Deep Research Bench está a arquitetura ReAct, que significa “Raciocinar + Agir”. Este método imita como um pesquisador humano pode abordar um problema—pensando sobre a tarefa, realizando uma ação como uma busca na web, observando os resultados e, em seguida, decidindo se deve iterar ou concluir.
Enquanto modelos anteriores seguem esse ciclo de maneira explícita, modelos mais novos, os “pensantes”, geralmente agilizam o processo, incorporando o raciocínio de forma mais fluida em suas ações. Para garantir a consistência nas avaliações, o DRB introduz o RetroSearch—uma versão da web estática e personalizada. Em vez de depender da internet ao vivo, que muda constantemente, os agentes acessam um arquivo curado de páginas da web extraídas usando ferramentas como Serper, Playwright, e ScraperAPI. A escala é impressionante: para tarefas de alta complexidade, como “Coletar Evidências”, o RetroSearch pode fornecer acesso a mais de 189.000 páginas, todas congeladas no tempo, garantindo um ambiente de teste justo e replicável.
Quais Agentes de IA Desempenham Melhor?
Entre todos os concorrentes, o o3 da OpenAI destacou-se como o melhor, alcançando 0,51 de um total possível de 1,0 no Deep Research Bench. Embora isso possa parecer modesto, é importante entender a dificuldade do benchmark: devido à ambiguidade nas definições de tarefas e na pontuação, mesmo um agente impecável provavelmente não ultrapassaria cerca de 0,8—o que os pesquisadores chamam de “teto de ruído”. Em outras palavras, mesmo os melhores modelos de hoje ainda ficam aquém de pesquisadores humanos bem informados e metódicos.
Ainda assim, a tabela de líderes oferece insights reveladores. O o3 não apenas liderou o grupo, mas fez isso com rapidez e consistência, mostrando bom desempenho em quase todos os tipos de tarefa. O Claude 3.7 Sonnet da Anthropic o seguiu de perto, demonstrando versatilidade em seus modos de “pensamento” e “não-pensamento”. O Gemini 2.5 Pro, modelo principal do Google, destacou-se por sua capacidade de lidar com tarefas que exigem planejamento estruturado e raciocínio passo a passo. Enquanto isso, o DeepSeek-R1 de peso aberto surpreendeu, acompanhando o GPT-4 Turbo e diminuindo a diferença de desempenho entre modelos abertos e fechados.
Em todos os aspectos, um padrão claro emergiu: modelos mais novos, “habilitados para pensar”, consistently outperform seus antecessores, e modelos fechados mantiveram uma vantagem notável sobre alternativas de peso aberto.
Onde os Agentes Encontram Dificuldades?
Ao ler os padrões de falha destacados no relatório do Deep Research Bench, senti uma estranha familiaridade. Um dos aspectos mais frustrantes que já encontrei—especialmente durante longas sessões de pesquisa ou criação de conteúdo—é quando um agente de IA simplesmente esquece o que estávamos fazendo. À medida que a janela de contexto se estende, o modelo frequentemente começa a perder o fio: detalhes importantes se desvanecem, metas ficam confusas, e de repente, as respostas parecem desarticuladas ou sem rumo. Em algum momento, aprendi que muitas vezes é melhor cortar as perdas e recomeçar, mesmo que isso signifique descartar tudo o que foi gerado até agora.
Esse tipo de esquecimento não é apenas anedótico—é o maior preditor de falhas na avaliação do Deep Research Bench. Mas não é o único problema recorrente. O relatório também destaca como alguns modelos caem na repetição do uso de ferramentas, executando a mesma busca repetidamente como se estivessem presos em um loop. Outros apresentam elaboração de consultas fraca, fazendo uma correspondência de palavras-chave de forma preguiçosa em vez de pensar criticamente sobre como pesquisar efetivamente. E, frequentemente, os agentes caem vítimas de conclusões prematuras—entregando uma resposta incompleta que tecnicamente preenche os requisitos, mas não oferece uma verdadeira visão.
Mesmo entre os melhores modelos, as diferenças são marcantes. O GPT-4 Turbo, por exemplo, mostrou uma tendência notável a esquecer etapas anteriores, enquanto o DeepSeek-R1 era mais provável de alucinar ou inventar informações plausíveis—but incorrectas. Em todos os aspectos, os modelos falharam frequentemente em cruzar fontes ou validar descobertas antes de finalizar sua saída. Para qualquer pessoa que já contou com IA para trabalho sério, esses problemas serão demasiado familiares—e eles ressaltam o quanto ainda precisamos avançar na construção de agentes que possam realmente pensar e pesquisar como humanos.
E Quanto ao Desempenho Baseado em Memória?
Curiosamente, o Deep Research Bench também avaliou o que chama de agentes “sem ferramentas”—modelos de linguagem que operam sem acesso a ferramentas externas, como busca na web ou recuperação de documentos. Esses agentes dependem completamente de seus dados de treinamento internos e memória, gerando respostas baseadas apenas no que aprenderam anteriormente durante o treinamento. Na prática, isso significa que eles não podem consultar nada ou verificar informações—estão apenas adivinhando com base no que “lembram”.
Surpreendentemente, esses agentes sem ferramentas tiveram um desempenho quase tão bom quanto os agentes de pesquisa completos em certas tarefas. Por exemplo, na tarefa Validar Afirmativa—onde o objetivo é avaliar a plausibilidade de uma declaração—eles pontuaram 0,61, quase igual à média de 0,62 dos agentes habilitados para ferramentas. Isso sugere que modelos como o o3 e Claude têm fortes priors internos e podem muitas vezes reconhecer a veracidade de afirmações comuns sem necessidade de buscar na web.
Mas em tarefas mais exigentes—como Derivar Número, que requer compor múltiplos valores de várias fontes, ou Coletar Evidências, que depende de encontrar e avaliar diversos fatos no contexto—esses modelos sem ferramentas falharam completamente. Sem informações atualizadas ou capacidades de consulta em tempo real, eles simplesmente não tinham meios de produzir respostas precisas ou abrangentes.
Esse contraste ressalta uma nuance importante: enquanto os LLMs de hoje podem simular “saber” muito, a pesquisa profunda não depende apenas da recordação, mas do raciocínio com informações atualizadas e verificáveis—algo que apenas agentes aumentados por ferramentas podem realmente oferecer.
Considerações Finais
O relatório do DRB deixa claro: enquanto os melhores agentes de IA de hoje podem superar humanos medíocres em tarefas definições restritas, eles ainda ficam atrás de pesquisadores generalistas habilidosos—especialmente quando se trata de planejar estrategicamente, adaptar-se durante o processo e raciocinar com nuance.
Essa lacuna se torna especialmente óbvia durante sessões longas ou complexas—algo que experimentei em primeira mão, onde um agente gradualmente perde o foco do propósito da tarefa, levando a uma quebra frustrante na coerência e utilidade.
O que torna o Deep Research Bench tão valioso é que ele não apenas testa o conhecimento superficial—ele investiga a interseção de uso de ferramentas, memória, raciocínio e adaptação, oferecendo um analógico mais próximo da pesquisa do mundo real do que benchmarks como MMLU ou GSM8k.
À medida que os LLMs continuam a se integrar ao trabalho sério de conhecimento, ferramentas como o FutureSearch e o DRB serão essenciais para avaliar não apenas o que esses sistemas sabem, mas quão bem eles realmente funcionam.
Conteúdo relacionado
A Amazon lança novo grupo de P&D focado em IA agentiva e robótica.
[the_ad id="145565"] A gigante da tecnologia Amazon planeja lançar um novo grupo dentro de sua divisão de produtos de consumo que se concentrará em IA agentiva. A Amazon…
Perplexity recebeu 780 milhões de consultas no mês passado, diz CEO.
[the_ad id="145565"] Perplexity recebeu 780 milhões de consultas em maio, compartilhou o CEO Aravind Srinivas no palco da Cúpula de Tecnologia da Bloomberg na quinta-feira.…
A Anysphere da Cursor atinge uma avaliação de $9,9 bilhões e supera $500 milhões em ARR.
[the_ad id="145565"] A Anysphere, fabricante do assistente de codificação AI Cursor, arrecadou US$ 900 milhões com uma avaliação de US$ 9,9 bilhões, reportou a Bloomberg. A…