Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder de IA no setor. Saiba mais


As empresas estão investindo tempo e dinheiro na construção de sistemas de geração aumentada por recuperação (RAG). O objetivo é ter um sistema de IA empresarial preciso, mas esses sistemas estão realmente funcionando?

A incapacidade de medir objetivamente se os sistemas RAG estão realmente funcionando é um ponto cego crítico. Uma possível solução para esse desafio é lançada hoje com a estreia da estrutura de código aberto Open RAG Eval. A nova estrutura foi desenvolvida pelo provedor da plataforma RAG empresarial Vectara, em colaboração com o Professor Jimmy Lin e sua equipe de pesquisa da Universidade de Waterloo.

O Open RAG Eval transforma a abordagem subjetiva atual de ‘isto parece melhor do que aquilo’ em uma metodologia de avaliação rigorosa e reprodutível, que pode medir a precisão da recuperação, a qualidade da geração e as taxas de alucinação em implementações empresariais de RAG.

A estrutura avalia a qualidade da resposta usando duas categorias principais de métricas: métricas de recuperação e métricas de geração. Permite que as organizações apliquem essa avaliação a qualquer pipeline RAG, seja utilizando a plataforma da Vectara ou soluções personalizadas. Para tomadores de decisão técnicos, isso significa finalmente ter uma maneira sistemática de identificar exatamente quais componentes de suas implementações de RAG precisam de otimização.

“Se você não pode medir, não pode melhorar”, disse Jimmy Lin, professor da Universidade de Waterloo, ao VentureBeat em uma entrevista exclusiva. “Na recuperação de informações e vetores densos, você poderia medir muitas coisas, ndcg [Normalized Discounted Cumulative Gain], precisão, recall… mas quando se tratava de respostas corretas, não tínhamos como, por isso começamos nesse caminho.”

Por que a avaliação RAG se tornou o gargalo para a adoção de IA empresarial

A Vectara foi uma pioneira no espaço RAG. A empresa foi lançada em outubro de 2022, antes de o ChatGPT se tornar um nome conhecido. A Vectara realmente estreou uma tecnologia que originalmente se referia como IA fundamentada em maio de 2023, como uma maneira de limitar alucinações, antes que o acrônimo RAG fosse usado comumente.

Nos últimos meses, para muitas empresas, as implementações RAG se tornaram cada vez mais complexas e difíceis de avaliar. Um desafio chave é que as organizações estão indo além de simples sistemas de perguntas e respostas para sistemas agentivos de múltiplas etapas.

“No mundo agentivo, a avaliação é duplamente importante, porque esses agentes de IA tendem a ser de múltiplas etapas,” disse Am Awadallah, CEO e cofundador da Vectara ao VentureBeat. “Se você não detectar alucinações no primeiro passo, isso se acumula com o segundo, se acumula com o terceiro e você acaba com a ação ou resposta errada no final do pipeline.”

Como o Open RAG Eval funciona: Quebrando a caixa-preta em componentes mensuráveis

A estrutura Open RAG Eval aborda a avaliação através de uma metodologia baseada em nuggets.

Lin explicou que a abordagem de nuggets descompõe as respostas em fatos essenciais e, em seguida, mede quão efetivamente um sistema captura os nuggets.

A estrutura avalia sistemas RAG em quatro métricas específicas:

  1. Detecção de alucinação – Mede o grau em que o conteúdo gerado contém informações fabricadas não suportadas pelos documentos de origem.
  2. Citação – Quantifica quão bem as citações na resposta são apoiadas pelos documentos de origem.
  3. Nugget automático – Avalia a presença de informações essenciais de nuggets nos documentos de origem nas respostas geradas.
  4. UMBRELA (Método Unificado para Avaliação de Recuperação com Avaliação LLM) – Um método holístico para avaliar o desempenho geral do recuperador.

Importante, a estrutura avalia todo o pipeline RAG de ponta a ponta, fornecendo visibilidade sobre como os modelos de embeddings, sistemas de recuperação, estratégias de fragmentação e LLMs interagem para produzir as saídas finais.

A inovação técnica: Automação através de LLMs

O que torna o Open RAG Eval tecnicamente significativo é como ele usa grandes modelos de linguagem para automatizar um processo de avaliação que antes era manual e trabalhoso.

“O estado da arte antes de começarmos era comparações de esquerda para direita,” explicou Lin. “Então, isso é, você prefere o da esquerda ou o da direita? Ou ambos são bons, ou ambos são ruins? Essa era uma forma de fazer as coisas.”

Lin observou que a abordagem de avaliação baseada em nuggets não é nova, mas sua automação através de LLMs representa um avanço.

A estrutura usa Python com engenharia de prompt sofisticada para fazer os LLMs realizarem tarefas de avaliação como identificar nuggets e avaliar alucinações, tudo isso envolto em um pipeline de avaliação estruturado.

Pano de fundo competitivo: Como o Open RAG Eval se encaixa no ecossistema de avaliação

À medida que o uso de IA pelas empresas continua a amadurecer, há um número crescente de estruturas de avaliação. Apenas na semana passada, a Hugging Face lançou o Yourbench para testar modelos contra os dados internos da empresa. No final de janeiro, a Galileo lançou sua tecnologia de Avaliações Agentivas.

O Open RAG Eval é diferente, pois é fortemente focado no pipeline RAG, não apenas em saídas do LLM. A estrutura também tem uma base acadêmica forte e é construída sobre ciência de recuperação de informações estabelecida, em vez de métodos ad-hoc.

A estrutura baseia-se nas contribuições anteriores da Vectara para a comunidade de IA de código aberto, incluindo seu Modelo de Avaliação de Alucinação Hughes (HHEM), que foi baixado mais de 3,5 milhões de vezes no Hugging Face e se tornou um padrão de referência para detecção de alucinações.

“Não estamos chamando isso de estrutura de avaliação da Vectara, estamos chamando de estrutura Open RAG Eval porque realmente queremos que outras empresas e instituições comecem a ajudar a construir isso,” enfatizou Awadallah. “Precisamos de algo assim no mercado, para todos nós, para fazer esses sistemas evoluírem da maneira certa.”

O que o Open RAG Eval significa no mundo real

Embora ainda seja um esforço em estágio inicial, a Vectara já tem vários usuários interessados em utilizar a estrutura Open RAG Eval.

Entre eles está Jeff Hummel, VP de Produto e Tecnologia da empresa de imóveis Anywhere.re. Hummel espera que a parceria com a Vectara lhe permita simplificar o processo de avaliação de RAG da sua empresa.

Hummel observou que escalar sua implementação de RAG trouxe desafios significativos em termos de complexidade de infraestrutura, velocidade de iteração e aumento de custos.

“Conhecer os benchmarks e expectativas em termos de desempenho e precisão ajuda nossa equipe a ser preditiva em nossos cálculos de escalonamento,” disse Hummel. “Para ser franco, não havia muitos frameworks para definir benchmarks sobre esses atributos; confiamos muito no feedback dos usuários, que às vezes era objetivo e se traduziu em sucesso em escala.”

Da medição à otimização: Aplicações práticas para implementadores de RAG

Para tomadores de decisão técnicos, o Open RAG Eval pode ajudar a responder perguntas cruciais sobre a implantação e configuração do RAG:

  • Se deve usar fragmentação de token fixa ou fragmentação semântica.
  • Se deve usar pesquisa híbrida ou vetorial, e quais valores usar para lambda na pesquisa híbrida.
  • Qual LLM usar e como otimizar prompts de RAG.
  • Quais limites usar para detecção e correção de alucinações.

Na prática, as organizações podem estabelecer pontuações base para seus sistemas RAG existentes, fazer alterações de configuração alvo e medir a melhoria resultante. Essa abordagem iterativa substitui o palpite por otimização baseada em dados.

Enquanto este lançamento inicial foca na medição, o roadmap inclui capacidades de otimização que poderiam sugerir melhorias de configuração automaticamente com base nos resultados da avaliação. Versões futuras também podem incorporar métricas de custo para ajudar as organizações a equilibrar desempenho contra despesas operacionais.

Para as empresas que buscam liderar na adoção de IA, o Open RAG Eval significa que podem implementar uma abordagem científica para avaliação, em vez de depender de avaliações subjetivas ou alegações de fornecedores. Para aquelas que estão no início de sua jornada em IA, fornece uma maneira estruturada de abordar avaliações desde o início, potencialmente evitando erros caros ao construir sua infraestrutura de RAG.





    seis − um =




    Bolt42