Bolt42

Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba mais


Quando os grandes modelos de linguagem (LLMs) surgiram, as empresas rapidamente os integraram em seus fluxos de trabalho. Elas desenvolveram aplicações de LLMs usando Geração Aumentada por Recuperação (RAG), uma técnica que utilizava conjuntos de dados internos para garantir que os modelos fornecessem respostas com contexto empresarial relevante e reduzissem as alucinações. A abordagem funcionou perfeitamente, levando ao surgimento de chatbots funcionais e produtos de busca que ajudavam os usuários a encontrar instantaneamente as informações que precisavam, seja uma cláusula específica em uma política ou perguntas sobre um projeto em andamento.

No entanto, mesmo com o RAG continuando a prosperar em múltiplos domínios, as empresas enfrentaram situações em que ele não entrega os resultados esperados. Este é o caso do RAG agentivo, onde uma série de agentes de IA aprimoram o pipeline do RAG. Embora ainda seja novo e possa enfrentar problemas ocasionais, ele promete ser uma mudança radical em como aplicações impulsionadas por LLMs processam e recuperam dados para lidar com consultas complexas dos usuários.

“O RAG agentivo… incorpora agentes de IA no pipeline do RAG para orquestrar seus componentes e realizar ações adicionais além da simples recuperação de informações e geração para superar as limitações do pipeline não agentivo,” escreveram a gerente de tecnologia da Weaviate, Erika Cardenas, e a engenheira de ML, Leonie Monigatti, em um post de blog descrevendo o potencial do RAG agentivo.

O problema do ‘RAG básico’

Embora seja amplamente utilizado em vários casos, o RAG tradicional muitas vezes é impactado devido à natureza inerente de como funciona.

No cerne, um pipeline RAG básico consiste em dois componentes principais: um recuperador e um gerador. O componente recuperador usa um banco de dados vetorial e um modelo de incorporação para pegar a consulta do usuário e executar uma busca de similaridade sobre os documentos indexados para recuperar os documentos mais semelhantes à consulta. Enquanto isso, o gerador fundamenta o LLM conectado com os dados recuperados para gerar respostas com contexto empresarial relevante.

A arquitetura ajuda as organizações a fornecer respostas bastante precisas, mas o problema começa quando há a necessidade de ir além de uma fonte de conhecimento (banco de dados vetorial). Os pipelines tradicionais simplesmente não conseguem fundamentar LLMs com duas ou mais fontes, restringindo as capacidades dos produtos subsequentes e mantendo-os limitados a aplicações selecionadas apenas.

Além disso, há também certos casos complexos onde os aplicativos construídos com RAG tradicional podem sofrer de problemas de confiabilidade devido à falta de raciocínio ou validação de dados recuperados. O que o componente recuperador puxa em uma única tentativa acaba formando a base da resposta dada pelo modelo.

RAG agentivo para o resgate

À medida que as empresas continuam a aprimorar suas aplicações de RAG, esses problemas estão se tornando mais proeminentes, forçando os usuários a explorar capacidades adicionais. Uma dessas capacidades é a IA agentiva, onde agentes de IA impulsionados por LLM com capacidades de memória e raciocínio planejam uma série de etapas e tomam ações em diferentes ferramentas externas para lidar com uma tarefa. Está sendo particularmente utilizada para casos como atendimento ao cliente, mas também pode orquestrar diferentes componentes do pipeline RAG, começando pelo componente recuperador.

De acordo com a equipe da Weaviate, os agentes de IA podem acessar uma ampla gama de ferramentas – como busca na web, calculadora ou uma API de software (como Slack/Gmail/CRM) – para recuperar dados, indo além de buscar informações de apenas uma fonte de conhecimento.

Como resultado, dependendo da consulta do usuário, o agente de IA com raciocínio e memória pode decidir se deve buscar informações, qual ferramenta é mais apropriada para obter as informações necessárias e se o contexto recuperado é relevante (e se deve re-recuperar) antes de passar os dados obtidos para o componente gerador para produzir uma resposta.

A abordagem expande a base de conhecimento que alimenta aplicações de LLM subsequentes, permitindo que elas produzam respostas mais precisas, fundamentadas e validadas para consultas complexas dos usuários.

Por exemplo, se um usuário tem um banco de dados vetorial cheio de tickets de suporte e a consulta é “Qual foi o problema mais comumente levantado hoje?”, a experiência agentiva seria capaz de realizar uma busca na web para determinar o dia da consulta e combinar isso com as informações do banco de dados vetorial para fornecer uma resposta completa.

“Ao adicionar agentes com acesso ao uso de ferramentas, o agente de recuperação pode direcionar consultas para fontes de conhecimento especializadas. Além disso, as capacidades de raciocínio do agente permitem uma camada de validação do contexto recuperado antes de ser utilizado para processamento adicional. Como resultado, pipelines RAG agentivos podem levar a respostas mais robustas e precisas,” observou a equipe da Weaviate.

Implementação fácil, mas desafios permanecem

As organizações já começaram a atualizar de pipelines RAG básicos para RAG agentivo, graças à ampla disponibilidade de grandes modelos de linguagem com capacidades de chamada de função. Também surgiu a prática de frameworks de agentes como DSPy, LangChain, CrewAI, LlamaIndex e Letta que simplificam a construção de sistemas RAG agentivos conectando templates pré-construídos.

Existem duas maneiras principais de configurar esses pipelines. Uma é incorporando um sistema de único agente que funciona através de várias fontes de conhecimento para recuperar e validar dados. A outra é um sistema multi-agente, onde uma série de agentes especializados, gerenciados por um agente mestre, trabalham em suas respectivas fontes para recuperar dados. O agente mestre então processa as informações recuperadas para passá-las ao gerador.

No entanto, independentemente da abordagem utilizada, é importante notar que o RAG agentivo ainda é novo e pode enfrentar problemas ocasionais, incluindo latências decorrentes de processamento em múltiplas etapas e falta de confiabilidade.

“Dependendo das capacidades de raciocínio do LLM subjacente, um agente pode falhar em concluir uma tarefa de forma suficientemente eficaz (ou mesmo não conseguir). É importante incorporar modos de falha apropriados para ajudar um agente de IA a se desvincular quando não consegue concluir uma tarefa,” apontou a equipe da Weaviate.

O CEO da empresa, Bob van Luijt, também comentou à VentureBeat que o pipeline RAG agentivo pode ser caro, já que quanto mais solicitações o agente LLM faz, maiores são os custos computacionais. No entanto, ele também observou que como toda a arquitetura é configurada poderia fazer diferença nos custos a longo prazo.

“Arquiteturas agentivas são críticas para a próxima onda de aplicações de IA que podem ‘fazer’ tarefas em vez de apenas recuperar informações. À medida que as equipes colocam a primeira onda de aplicações RAG em produção e se familiarizam com os LLMs, elas devem procurar recursos educativos sobre novas técnicas como RAG agentivo ou Loops de Retroalimentação Generativa, uma arquitetura agentiva para tarefas como limpeza e enriquecimento de dados,” acrescentou.





    dois × 4 =




    Bolt42