Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder na indústria. Saiba Mais


As empresas estão se empenhando na adoção de agentes de IA compostos. Elas desejam que esses sistemas raciocinem e desempenhem diferentes tarefas em diversos domínios, mas frequentemente são reprimidas pelo complexo e demorado processo de avaliação do desempenho dos agentes. Hoje, o líder em ecossistemas de dados Databricks anunciou capacidades de geração de dados sintéticos para tornar isso um pouco mais fácil para os desenvolvedores.

A movimentação, segundo a empresa, permitirá que os desenvolvedores gerem conjuntos de dados artificiais de alta qualidade dentro de seus fluxos de trabalho para avaliar o desempenho de sistemas em desenvolvimento. Isso economizará idas e voltas desnecessárias com especialistas em assuntos e acelerará a colocação dos agentes em produção.

Embora ainda seja incerto como exatamente a oferta de dados sintéticos funcionará para as empresas que usam a plataforma Databricks Intelligence, a empresa liderada por Ali Ghodsi afirma que seus testes internos mostraram que isso pode melhorar significativamente o desempenho dos agentes em várias métricas.

A jogada da Databricks para avaliar agentes de IA

A Databricks adquiriu a MosaicML no ano passado e integrou totalmente a tecnologia e os modelos da empresa em sua plataforma de Inteligência de Dados para fornecer às empresas tudo o que precisam para construir, implantar e avaliar soluções de aprendizado de máquina (ML) e IA generativa usando seus dados armazenados no lakehouse da empresa.

Parte desse trabalho girou em torno da ajuda às equipes para construir sistemas de IA compostos que podem não apenas raciocinar e responder com precisão, mas também realizar ações como abrir/fechar chamados de suporte, responder a e-mails e fazer reservas. Para tanto, a empresa revelou uma nova suíte de capacidades da Mosaic AI este ano, incluindo suporte para ajuste fino de modelos fundamentados, um catálogo de ferramentas de IA e ofertas para criar e avaliar os agentes de IA — Mosaic AI Agent Framework e Avaliação de Agentes.

Hoje, a empresa está expandindo a Avaliação de Agentes com uma nova API de geração de dados sintéticos.

Até agora, a Avaliação de Agentes forneceu às empresas duas capacidades principais. A primeira permite que os usuários e especialistas em assuntos (SMEs) definam manualmente conjuntos de dados com perguntas e respostas relevantes e criem uma espécie de padrão para avaliar a qualidade das respostas fornecidas pelos agentes de IA. A segunda permite que os SMEs usem esse padrão para avaliar o agente e fornecer feedback (rótulos). Isso é apoiado por juízes de IA que registram automaticamente as respostas e o feedback de humanos em uma tabela e avaliam a qualidade do agente em métricas como precisão e nocividade.

Essa abordagem funciona, mas o processo de construção de conjuntos de dados de avaliação leva muito tempo. Os motivos são fáceis de imaginar: especialistas em domínio nem sempre estão disponíveis; o processo é manual e os usuários podem muitas vezes lutar para identificar as perguntas e respostas mais relevantes para fornecer exemplos “dourados” de interações bem-sucedidas.

É exatamente aí que a API de geração de dados sintéticos entra em cena, permitindo que os desenvolvedores criem conjuntos de dados de avaliação de alta qualidade para uma avaliação preliminar em questão de minutos. Isso reduz o trabalho dos SMEs à validação final e acelera o processo de desenvolvimento iterativo, onde os desenvolvedores podem explorar como as permutações do sistema — ajustando modelos, alterando recuperação ou adicionando ferramentas — afetam a qualidade.

A empresa realizou testes internos para verificar como os conjuntos de dados gerados pela API podem ajudar a avaliar e melhorar os agentes, e observou que isso pode levar a melhorias significativas em várias métricas.

“Pedimos a um pesquisador que usasse os dados sintéticos para avaliar e melhorar o desempenho de um agente e, em seguida, avaliamos o agente resultante usando os dados curados por humanos,” disse Eric Peter, líder de plataforma e produto de IA na Databricks, ao VentureBeat. “Os resultados mostraram que, em várias métricas, o desempenho do agente melhorou significativamente. Por exemplo, observamos um aumento de quase 2 vezes na capacidade do agente encontrar documentos relevantes (medido por recall@10). Além disso, vimos melhorias na correção geral das respostas do agente.

Como se destaca?

Enquanto existem muitos ferramentas que podem gerar conjuntos de dados sintéticos para avaliação, a oferta da Databricks se destaca pela sua estreita integração com a Avaliação de Agentes Mosaic AI — o que significa que os desenvolvedores que constroem na plataforma da empresa não precisam sair de seus fluxos de trabalho.

Peter observou que criar um conjunto de dados com a nova API é um processo de quatro etapas. Os desenvolvedores apenas precisam analisar seus documentos (salvando-os como uma Tabela Delta em seu lakehouse), passar a Tabela Delta para a API de dados sintéticos, executar a avaliação com os dados gerados e visualizar os resultados da qualidade.

Em contraste, o uso de uma ferramenta externa significaria várias etapas adicionais, incluindo executar (extração, transformação e carregamento (ETL) para mover os documentos analisados para um ambiente externo que poderia executar o processo de geração de dados sintéticos; mover os dados gerados de volta para a plataforma Databricks; e então transformá-los em um formato aceito pela Avaliação de Agentes. Somente após isso a avaliação poderia ser executada.

“Sabíamos que as empresas precisavam de uma API turnkey que fosse simples de usar — uma linha de código para gerar dados,” explicou Peter. “Também percebemos que muitas soluções no mercado ofereciam prompts de código aberto simples que não estavam ajustados para qualidade. Tendo isso em mente, fizemos um investimento significativo na qualidade dos dados gerados, permitindo ainda que os desenvolvedores ajustassem o pipeline para os requisitos únicos de suas empresas através de uma interface semelhante a prompts. Por fim, sabíamos que a maioria das ofertas existentes precisava ser importada para os fluxos de trabalho existentes, adicionando complexidade desnecessária ao processo. Em vez disso, construímos um SDK que foi estreitamente integrado com a plataforma de Inteligência de Dados da Databricks e as capacidades de Avaliação de Agentes da Mosaic AI.”

Múltiplas empresas que utilizam a Databricks já estão aproveitando a API de dados sintéticos como parte de uma prévia privada, e relatam uma redução significativa no tempo necessário para melhorar a qualidade de seus agentes e implantá-los em produção.

Um desses clientes, Chris Nishnick, diretor de inteligência artificial na Lippert, disse que suas equipes conseguiram usar os dados da API para melhorar a qualidade de resposta do modelo em 60%, mesmo antes de envolver especialistas.

Mais capacidades centradas em agentes no pipeline

Como próximo passo, a empresa planeja expandir a Avaliação de Agentes da Mosaic AI com recursos para ajudar os especialistas em domínio a modificar os dados sintéticos para maior precisão, bem como ferramentas para gerenciar seu ciclo de vida.

“Em nossa prévia, aprendemos que os clientes desejam várias capacidades adicionais,” disse Peter. “Primeiro, eles querem uma interface de usuário para seus especialistas em domínio revisarem e editarem os dados de avaliação sintética. Em segundo lugar, eles querem uma maneira de governar e gerenciar o ciclo de vida de seu conjunto de avaliação para rastrear mudanças e tornar as atualizações da revisão de dados do especialista em domínio imediatamente disponíveis para os desenvolvedores. Para abordar esses desafios, já estamos testando vários recursos com os clientes que planejamos lançar no início do próximo ano.”

De forma ampla, as inovações são esperadas para impulsionar a adoção da oferta Mosaic AI da Databricks, fortalecendo ainda mais a posição da empresa como a fornecedora preferencial para todas as coisas relacionadas a dados e IA generativa.

Mas a Snowflake também está se aproximando nesta categoria e fez uma série de anúncios de produtos, incluindo uma parceria de modelo com a Anthropic, para seu produto Cortex AI, que permite que as empresas construam aplicativos de IA generativa. No início deste ano, a Snowflake também adquiriu a startup de observabilidade TruEra para fornecer capacidades de monitoramento de aplicações de IA dentro do Cortex.





    dez − quatro =




    Bolt42