Bolt42

Um estudo recente dos EUA descobriu que o desempenho na vida real de sistemas populares de Geração Aumentada de Recuperação (RAG), como Perplexity e Bing Copilot, está aquém tanto da exageração publicitária quanto da adoção popular que ganhou manchetes ao longo dos últimos 12 meses. O projeto, que envolveu extensa participação de pesquisa com 21 especialistas, identificou não menos que 16 áreas em que os sistemas RAG estudados (You Chat, Bing Copilot e Perplexity) geraram preocupações:

  1. Uma falta de detalhe objetivo nas respostas geradas, com resumos genéricos e escassa profundidade contextual ou nuance.
  2. Reforço de preconceitos percebidos do usuário, onde um motor RAG frequentemente falha em apresentar uma gama de pontos de vista, inferindo e reforçando preconceitos do usuário com base na forma como a pergunta é formulada.
  3. Linguagem excessivamente confiante, especialmente em respostas subjetivas que não podem ser estabelecidas empiricamente, levando os usuários a confiarem mais na resposta do que ela realmente merece.
  4. Linguagem simplista e falta de pensamento crítico e criatividade, onde as respostas de fato tratam o usuário de forma condescendente com informações ‘simplificadas’ e ‘agradáveis’, em vez de uma cogitação e análise mais elaboradas.
  5. Atribuição incorreta e citações errôneas de fontes, onde o mecanismo de resposta utiliza fontes citadas que não apoiam suas respostas, fomentando a ilusão de credibilidade.
  6. Seleção de informações a partir do contexto inferido, onde o agente RAG parece estar buscando respostas que apoiem sua argumentação gerada e sua estimativa do que o usuário deseja ouvir, em vez de basear suas respostas em uma análise objetiva de fontes confiáveis (possivelmente indicando um conflito entre os dados ‘pré-programados’ do LLM e os dados obtidos em tempo real da internet em resposta a uma consulta).
  7. Omissão de citações que apoiam declarações, onde o material de origem para as respostas está ausente.
  8. Falta de um esquema lógico para suas respostas, onde os usuários não podem questionar por que o sistema priorizou certas fontes sobre outras.
  9. Número limitado de fontes, onde a maioria dos sistemas RAG geralmente fornece cerca de três fontes de apoio para uma declaração, mesmo quando uma maior diversidade de fontes seria aplicável.
  10. Fontes órfãs, onde os dados de todas ou algumas das citações de apoio do sistema não são realmente incluídos na resposta.
  11. Uso de fontes não confiáveis, onde o sistema parece ter preferido uma fonte que é popular (ou seja, em termos de SEO) em vez de factualmente correta.
  12. Fontes redundantes, onde o sistema apresenta várias citações em que os documentos das fontes são essencialmente os mesmos em conteúdo.
  13. Fontes não filtradas, onde o sistema não oferece ao usuário uma maneira de avaliar ou filtrar as citações oferecidas, forçando os usuários a aceitarem os critérios de seleção por confiança.
  14. Falta de interatividade ou explorabilidade, onde vários participantes do estudo com usuários ficaram frustrados porque os sistemas RAG não fazem perguntas esclarecedoras, mas presumem a intenção do usuário a partir da primeira consulta.
  15. A necessidade de verificação externa, onde os usuários se sentem obrigados a realizar uma verificação independente das respostas fornecidas, removendo em grande parte a suposta conveniência do RAG como um ‘substituto para buscas’.
  16. Uso de métodos de citação acadêmica, como [1] ou [34]; isso é uma prática padrão em círculos acadêmicos, mas pode ser contra-intuitivo para muitos usuários.

Para o trabalho, os pesquisadores reuniram 21 especialistas em inteligência artificial, saúde e medicina, ciências aplicadas, educação e ciências sociais, todos pesquisadores pós-doutorais ou candidatos a doutorado. Os participantes interagiram com os sistemas RAG testados enquanto expunham seus processos de pensamento em voz alta, para esclarecer (para os pesquisadores) seu próprio esquema racional.

O artigo cita extensivamente as preocupações e reservas dos participantes sobre o desempenho dos três sistemas estudados. A metodologia do estudo com usuários foi então sistematizada em uma avaliação automatizada dos sistemas RAG, usando suítes de controle de navegador: ‘Uma avaliação automatizada em larga escala de sistemas como You.com, Perplexity.ai, e BingChat mostrou que nenhum alcançou desempenho aceitável em métricas na maioria dos casos, incluindo aspectos críticos relacionados ao manejo de alucinações, declarações não suportadas e precisão de citações.’

Os autores argumentam extensivamente (e assiduamente, em um abrangente artigo de 27 páginas) que tanto novos quanto experientes usuários devem ter cautela ao usar a classe de sistemas RAG estudados. Eles ainda propõem um novo sistema de métricas, com base nas deficiências encontradas no estudo, que poderia formar a base para um maior controle técnico no futuro.

No entanto, o crescente uso público de sistemas RAG leva os autores a defenderem uma legislação apropriada e um nível maior de política governamental aplicável em relação às interfaces de busca assistidas por agentes de IA. O estudo é conduzido por cinco pesquisadores da Pennsylvania State University e Salesforce, e intitulado “Motores de Busca na Era da IA: A Falsa Promessa de Respostas Cidadas Factual e Verificáveis”. O trabalho abrange sistemas RAG até o estado da arte em agosto de 2024.

A Troca RAG

Os autores preveem seu trabalho reiterando quatro deficiências conhecidas de Modelos de Linguagem de Grande Escala (LLMs) quando usados em Motores de Resposta. Primeiramente, eles são propensos a alucinar informações e carecem da capacidade de detectar inconsistências factuais. Em segundo lugar, têm dificuldade em avaliar a precisão de uma citação no contexto de uma resposta gerada. Terceiramente, tendem a favorecer dados de seus próprios pesos pré-treinados, e podem resistir a dados de documentação recuperada externamente, mesmo que esses dados sejam mais recentes ou mais precisos. Finalmente, os sistemas RAG tendem a comportamentos agradadores e silvestres, muitas vezes em detrimento da precisão da informação em suas respostas. Todas essas tendências foram confirmadas em ambos os aspectos do estudo, junto com muitas observações novas sobre as armadilhas do RAG.

O artigo vê o produto RAG SearchGPT da OpenAI (lançado para assinantes na semana passada, após a nova submissão do artigo), como algo que provavelmente incentivará a adoção pelos usuários de sistemas de busca baseados em RAG, apesar das deficiências fundamentais que os resultados da pesquisa sugerem: ‘O lançamento do SearchGPT da OpenAI, comercializado como um “assassino do Google”, exacerba ainda mais [as preocupações]. À medida que a dependência dessas ferramentas cresce, também aumenta a urgência de entender seu impacto. Lindemann introduz o conceito de “Conhecimento Selado”, que critica como esses sistemas limitam o acesso a respostas diversas ao condensar consultas de busca em respostas singulares e autoritárias, efetivamente descontextualizando informações e restringindo perspectivas dos usuários. ‘Esse “selamento” do conhecimento perpetua preconceitos de seleção e restringe pontos de vista marginalizados.’

O Estudo

Os autores primeiro testaram seu procedimento de estudo em três dos 24 participantes selecionados, todos convidados através de meios como LinkedIn ou e-mail. A primeira fase, para os restantes 21, envolveu a Recuperação de Informação por Especialidade, onde os participantes realizaram em média cerca de seis consultas de busca ao longo de uma sessão de 40 minutos. Esta seção concentrou-se na coleta e verificação de perguntas e respostas baseadas em fatos, com soluções empíricas potenciais. A segunda fase dizia respeito à Recuperação de Informação para Debate, que abordava em vez disso questões subjetivas, incluindo ecologia, vegetarianismo e política.

Respostas geradas nos estudos por Perplexity (esquerda) e You Chat (direita). Fonte: arxiv.org/pdf/2410.22349

Uma vez que todos os sistemas permitiram algum nível de interatividade com as citações fornecidas como suporte para as respostas geradas, os sujeitos do estudo foram incentivados a interagir com a interface o máximo possível. Em ambos os casos, os participantes eram solicitados a formular suas consultas tanto através de um sistema RAG quanto de um motor de busca convencional (neste caso, o Google). Os três Motores de Resposta – You Chat, Bing Copilot e Perplexity – foram escolhidos porque são acessíveis ao público. A maioria dos participantes já utilizava sistemas RAG, com frequências variadas.

Devido a limitações de espaço, não conseguimos detalhar cada uma das dezesseis deficiências principais documentadas no estudo, mas aqui apresentamos uma seleção de alguns dos exemplos mais interessantes e esclarecedores.

Falta de Detalhamento Objetivo

O artigo nota que os usuários acharam que as respostas dos sistemas frequentemente careciam de detalhes objetivos, tanto nas respostas factuais quanto subjetivas. Um comentou: ‘Apenas estava tentando responder sem realmente me dar uma resposta sólida ou uma resposta mais pensada, que eu consigo obter com várias buscas no Google.’ Outro observou: ‘É muito curto e apenas resume bastante. [O modelo] precisa me dar mais dados para a afirmação, mas é muito resumido.’

Falta de Perspectiva Holística

Os autores expressam preocupação com essa falta de nuance e especificidade, afirmando que os Motores de Resposta frequentemente falharam em apresentar múltiplas perspectivas sobre qualquer argumento, tendendo a se alinhar com um preconceito percebido inferido da própria formulação da pergunta pelo usuário. Um participante disse: ‘Eu quero descobrir mais sobre o lado oposto do argumento… tudo isso leva um pouco de sal, porque não sabemos o outro lado e as evidências e fatos.’ Outro comentou: ‘Não está apresentando ambos os lados do argumento; não está discutindo com você. Em vez disso, [o modelo] está apenas dizendo: “Você está certo… e aqui estão os motivos”.’

Linguagem Confiante

Os autores observam que todos os três sistemas testados exibiram o uso de linguagem excessivamente confiante, mesmo para respostas que cobrem assuntos subjetivos. Eles argumentam que esse tom tende a inspirar confiança injustificada na resposta. Um participante notou: ‘Ele escreve com tanta confiança que me sinto convencido sem nem mesmo olhar a fonte. Mas quando você olha a fonte, é ruim e isso me faz questioná-lo novamente.’ Outro comentou: ‘Se alguém não sabe exatamente a resposta certa, vai confiar isso mesmo quando estiver errado.’

Citações Incorretas

Outro problema frequente foi a atribuição errada de fontes citadas como autoridade para as respostas dos sistemas RAG, com um dos sujeitos de estudo afirmando: ‘[Esta] declaração não parece estar na fonte. Quero dizer que a declaração é verdadeira; é válida… mas não sei de onde está vindo essa informação.’ Os autores do novo artigo comentam: ‘Os participantes sentiram que os sistemas estavam usando citações para legitimar sua resposta, criando uma ilusão de credibilidade. Essa fachada só foi descoberta por alguns usuários que procederam a examinar as fontes.’

Selecionando Informações para Conformar com a Consulta

Retornando à noção de comportamento de agradar pessoas e sycophantismo nas respostas RAG, o estudo descobriu que muitas respostas destacaram um ponto de vista particular em vez de resumir completamente o tópico, como um participante observou: ‘Sinto que [o sistema] é manipulador. Ele pega apenas algumas informações e sinto que estou sendo manipulado para ver apenas um lado das coisas.’ Outro opinou: ‘[A fonte] realmente tem prós e contras, e escolheu pegar apenas os argumentos necessários desse link sem o quadro todo.’

Para mais exemplos detalhados (e várias citações críticas dos participantes da pesquisa), referimos o leitor ao artigo fonte.

RAG Automatizado

Na segunda fase do estudo mais amplo, os pesquisadores utilizaram a automação baseada em navegador para solicitar sistematicamente consultas dos três motores RAG estudados. Eles então empregaram um sistema LLM (GPT-4o) para analisar as respostas dos sistemas. As declarações foram analisadas quanto à relevância da consulta e Declarações Pró vs. Contra (ou seja, se a resposta é a favor, contra ou neutra em relação ao preconceito implícito da consulta. Uma Pontuação de Confiança da Resposta também foi avaliada nesta fase automatizada, com base no método de teste psicométrico da escala de Likert. Aqui, o juiz LLM foi aumentado por dois anotadores humanos. Uma terceira operação envolveu o uso de web scraping para obter o conteúdo completo de páginas da web citadas, através da ferramenta Jina.ai Reader. No entanto, como observado em outras partes do artigo, a maioria das ferramentas de web scraping não pode acessar sites com paywall da mesma forma que a maioria das pessoas (embora os autores observem que o Perplexity.ai tem conseguido contornar essa barreira).

Considerações adicionais foram se as respostas citavam uma fonte (computada como uma ‘matriz de citação’), bem como uma ‘matriz de suporte factual’ – uma métrica verificada com a ajuda de quatro anotadores humanos. Assim, foram obtidas 8 métricas gerais: resposta unilateral; resposta excessivamente confiante; declaração relevante; fontes não citadas; declarações não suportadas; necessidade da fonte; precisão da citação; e completude da citação. O material contra o qual essas métricas foram testadas consistiu em 303 perguntas curadas da fase do estudo com usuários, resultando em 909 respostas nos três sistemas testados.

Avaliação quantitativa em relação às três métricas de texto da resposta

Quanto aos resultados, o artigo declara: ‘Olhando para as três métricas relacionadas ao texto da resposta, descobrimos que os motores de resposta avaliados frequentemente (50-80%) geram respostas unilaterais, favorecendo a concordância com uma formulação carregada de uma pergunta de debate sobre apresentar múltiplas perspectivas na resposta, com o Perplexity apresentando pior desempenho que os outros dois motores. ‘Este achado adere aos resultados qualitativos que obtivemos. Surpreendentemente, embora o Perplexity seja o mais propenso a gerar uma resposta unilateral, também gera as respostas mais longas (com média de 18,8 declarações por resposta), indicando que a falta de diversidade na resposta não se deve à brevidade da mesma. ‘Em outras palavras, aumentar o comprimento da resposta não melhora necessariamente a diversidade da resposta.’

Os autores também observam que o Perplexity é o mais propenso a usar linguagens confiantes (90% das respostas), e que, por outro lado, os outros dois sistemas tendem a usar linguagens mais cautelosas e menos confiantes quando conteúdos subjetivos estão em jogo. O You Chat foi a única estrutura RAG a obter zero fontes não citadas para uma resposta, com o Perplexity chegando a 8% e o Bing Chat a 36%. Todos os modelos evidenciaram uma ‘proporção significativa’ de declarações não suportadas e o artigo declara: ‘O framework RAG é anunciado para resolver o comportamento alucinatório dos LLMs, impondo que um LLM gere uma resposta fundamentada em documentos de origem, no entanto, os resultados mostram que os motores de resposta baseados em RAG ainda geram respostas com uma grande proporção de declarações não suportadas pelas fontes que fornecem. ‘Além disso, todos os sistemas testados tiveram dificuldades em apoiar suas declarações com citações: ‘You.Com e [Bing Chat] se saem ligeiramente melhor que o Perplexity, com aproximadamente dois terços das citações apontando para uma fonte que apoia a declaração citada, e o Perplexity performance pior com mais da metade de suas citações sendo imprecisas. ‘Esse resultado é surpreendente: a citação não é apenas incorreta para declarações que não são apoiadas por nenhuma (fonte), mas descobrimos que mesmo quando existe uma fonte que apoia uma declaração, todos os motores ainda frequentemente citam uma fonte incorreta, perdendo a oportunidade de fornecer informações corretas de origem ao usuário. ‘Em outras palavras, o comportamento alucinatório não é apenas evidenciado em declarações que não são suportadas pelas fontes, mas também em citações imprecisas que proíbem os usuários de verificar a validade da informação. ‘Os autores concluem: ‘Nenhum dos motores de resposta atinge um bom desempenho na maioria das métricas, destacando a grande margem para melhorias nos motores de resposta.’

* A minha conversão das citações em linha dos autores em hyperlinks. Onde necessário, escolhi a primeira de várias citações para o hyperlink, devido às questões de formatação.

† Ênfase dos autores, não minha.

Publicado originalmente em segunda-feira, 4 de novembro de 2024

    dois + dez =

    Bolt42