Bolt42

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais


A próxima fase da IA agentiva pode ser a avaliação e monitoramento, à medida que as empresas desejam tornar os agentes que estão começando a implantar mais observáveis.

Embora os benchmarks de agentes de IA possam ser enganosos, há muito valor em verificar se o agente está funcionando da maneira que desejam. Para isso, as empresas estão começando a oferecer plataformas onde os clientes podem criar ambientes de teste para agentes de IA ou avaliar seu desempenho.

A Salesforce lançou sua plataforma de avaliação de agentes, o Centro de Testes Agentforce, em um piloto limitado na quarta-feira. A disponibilidade geral está prevista para dezembro. O Centro de Testes permite que as empresas observem e prototipem agentes de IA para garantir que eles tenham acesso aos fluxos de trabalho e dados de que precisam.

As novas funcionalidades do Centro de Testes incluem testes gerados por IA para o Agentforce, Sandboxes para Agentforce e Data Cloud, além de monitoramento e observabilidade para o Agentforce.

Os testes gerados por IA permitem que as empresas usem modelos de IA para gerar “centenas de interações sintéticas” para testar se os agentes respondem da maneira que as empresas desejam. Como o nome sugere, os sandboxes oferecem um ambiente isolado para testar agentes enquanto refletem melhor como o agente funcionará para elas. O monitoramento e a observabilidade permitem que as empresas mantenham um registro quando os agentes entram em produção.

Patrick Stokes, vice-presidente executivo de marketing de produtos e indústrias da Salesforce, disse ao VentureBeat que o Centro de Testes faz parte de uma nova classe de agentes que a empresa chama de Gerenciamento do Ciclo de Vida do Agente.

“Estamos posicionando o que acreditamos ser uma nova subcategoria importante de agentes”, disse Stokes. “Quando falamos de ciclo de vida, nos referimos a todo o processo, desde a gênese até o desenvolvimento, passando pela implantação e, em seguida, as iterações da sua implantação à medida que você avança.”

Stokes disse que, no momento, o Centro de Testes não possui informações específicas de fluxo de trabalho onde os desenvolvedores podem ver as escolhas específicas em API, dados ou modelo que os agentes usaram. No entanto, a Salesforce coleta esse tipo de dado em sua Einstein Trust Layer.

“O que estamos fazendo é construir ferramentas para desenvolvedores que exponham esses metadados aos nossos clientes, para que eles possam realmente usá-los para construir melhores agentes”, disse Stokes.

A Salesforce está apostando em agentes de IA, concentrando muita energia em sua oferta agentiva Agentforce. Os clientes da Salesforce podem usar agentes pré-definidos ou construir agentes personalizados no Agentforce para se conectar às suas instâncias.

Avaliação de agentes

Agentes de IA tocam em muitos pontos de uma organização, e como bons ecossistemas agentivos buscam automatizar uma grande parte dos fluxos de trabalho, garantir que funcionem bem se torna essencial.

Se um agente decide acessar a API errada, isso pode significar um desastre para um negócio. Os agentes de IA são estocásticos por natureza, como os modelos que os alimentam, e consideram cada probabilidade potencial antes de chegar a um resultado. Stokes disse que a Salesforce testa agentes ao bombardear o agente com versões das mesmas declarações ou perguntas. Suas respostas são classificadas como aprovadas ou reprovadas, permitindo que o agente aprenda e evolua dentro de um ambiente seguro que os desenvolvedores humanos podem controlar.

Plataformas que ajudam as empresas a avaliar agentes de IA estão se tornando rapidamente um novo tipo de oferta de produto. Em junho, a empresa de experiência do cliente de IA Sierra lançou um benchmark de agente de IA chamado TAU-bench para analisar o desempenho de agentes conversacionais. A empresa de automação UiPath lançou sua plataforma Agent Builder em outubro, que também ofereceu um meio de avaliar o desempenho do agente antes da implantação total.

A avaliação de aplicativos de IA não é novidade. Além da avaliação do desempenho de modelos, muitos repositórios de modelos de IA, como AWS Bedrock e Microsoft Azure, já permitem que os clientes testem modelos fundamentais em um ambiente controlado para ver qual funciona melhor para seus casos de uso.





    cinco × cinco =




    Bolt42