Assine nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria de IA. Saiba Mais
Patronus AI lançou hoje uma nova plataforma de monitoramento que identifica automaticamente falhas em sistemas de agentes de IA, abordando preocupações empresariais sobre confiabilidade à medida que essas aplicações se tornam mais complexas.
A nova solução da startup de segurança em IA com sede em São Francisco, chamada Percival, se posiciona como a primeira capaz de identificar automaticamente vários padrões de falha em sistemas de agentes de IA e sugerir otimizações para resolvê-los.
“Percival é a primeira solução da indústria que detecta automaticamente uma variedade de padrões de falha em sistemas agenticos e depois sugere sistematicamente correções e otimizações para abordá-los,” disse Anand Kannappan, CEO e co-fundador da Patronus AI, em uma entrevista exclusiva ao VentureBeat.
Crise de confiabilidade de agentes de IA: Por que as empresas estão perdendo o controle de sistemas autônomos
A adoção de agentes de IA pelas empresas—software que pode planejar e executar de forma independente tarefas complexas em múltiplas etapas—acelerou nos últimos meses, criando novos desafios de gerenciamento enquanto as empresas tentam garantir que esses sistemas operem de forma confiável em grande escala.
Diferentemente dos modelos convencionais de aprendizado de máquina, esses sistemas baseados em agentes frequentemente envolvem longas sequências de operações, onde erros nas fases iniciais podem ter consequências significativas mais adiante.
“Há algumas semanas, publicamos um modelo que quantifica a probabilidade de falha dos agentes e qual impacto isso pode ter na marca, na rotatividade de clientes e em coisas assim,” disse Kannappan. “Há uma probabilidade constante de erro que se acumula com os agentes que estamos observando.”
Esse problema se torna particularmente agudo em ambientes de múltiplos agentes, onde diferentes sistemas de IA interagem entre si, tornando as abordagens de teste tradicionais cada vez mais inadequadas.
Inovação em memória episódica: Como a arquitetura de agentes de IA do Percival revoluciona a detecção de erros
Percival se diferencia de outras ferramentas de avaliação por sua arquitetura baseada em agentes e o que a empresa chama de “memória episódica” — a capacidade de aprender com erros anteriores e se adaptar a fluxos de trabalho específicos.
O software pode detectar mais de 20 modos de falha diferentes em quatro categorias: erros de raciocínio, erros de execução do sistema, erros de planejamento e coordenação e erros específicos de domínio.
“Diferente de um LLM como juiz, o Percival é ele mesmo um agente e, portanto, pode acompanhar todos os eventos que ocorreram ao longo da trajetória,” explicou Darshan Deshpande, pesquisador da Patronus AI. “Ele pode correlacioná-los e encontrar esses erros em diferentes contextos.”
Para as empresas, o benefício mais imediato parece ser a redução do tempo de depuração. De acordo com a Patronus, clientes iniciais reduziram o tempo gasto analisando fluxos de trabalho de agentes de cerca de uma hora para entre um e 1,5 minutos.
O benchmark TRAIL revela lacunas críticas nas capacidades de supervisão de IA
Juntamente com o lançamento do produto, a Patronus está lançando um benchmark chamado TRAIL (Rastreamento de Raciocínio e Localização de Problemas Agenticos) para avaliar quão bem os sistemas podem detectar problemas em fluxos de trabalho de agentes de IA.
A pesquisa usando este benchmark revelou que mesmo modelos sofisticados de IA enfrentam dificuldades na análise eficaz de rastreamento, com o melhor sistema obtendo apenas 11% no benchmark.
Os resultados ressaltam a natureza desafiadora de monitorar sistemas complexos de IA e podem ajudar a explicar por que grandes empresas estão investindo em ferramentas especializadas para supervisão de IA.
Líderes em IA empresarial abraçam o Percival para aplicações críticas de agentes
Entre os primeiros adotantes está a Emergence AI, que levantou aproximadamente $100 milhões em financiamento e está desenvolvendo sistemas onde agentes de IA podem criar e gerenciar outros agentes.
“A recente inovação da Emergence — agentes criando agentes — marca um momento crucial não apenas na evolução de sistemas adaptativos e autogeradores, mas também em como esses sistemas são governados e escalados de forma responsável,” disse Satya Nitta, cofundador e CEO da Emergence AI, em uma declaração enviada ao VentureBeat.
A Nova, outro cliente inicial, está usando a tecnologia para uma plataforma que ajuda grandes empresas a migrar código legado por meio de integrações SAP baseadas em IA.
Esses clientes tipificam o desafio que Percival busca resolver. Segundo Kannappan, algumas empresas agora gerenciam sistemas de agentes com “mais de 100 etapas em um único diretório de agentes,” criando uma complexidade que excede em muito o que os operadores humanos podem monitorar de forma eficaz.
Mercado de supervisão de IA preparado para um crescimento explosivo à medida que sistemas autônomos proliferam
O lançamento acontece em meio a crescentes preocupações empresariais sobre confiabilidade e governança da IA. À medida que as empresas implantam sistemas cada vez mais autônomos, a necessidade de ferramentas de supervisão cresceu proporcionalmente.
“O que é desafiador é que os sistemas estão se tornando cada vez mais autônomos,” observou Kannappan, acrescentando que “bilhões de linhas de código estão sendo geradas por dia usando IA,” criando um ambiente onde a supervisão manual se torna praticamente impossível.
O mercado para ferramentas de monitoramento e confiabilidade de IA deve se expandir significativamente à medida que as empresas passam de implantações experimentais para aplicações de IA críticas.
O Percival integra-se com várias estruturas de IA, incluindo Hugging Face Smolagents, Pydantic AI, OpenAI Agent SDK e Langchain, tornando-o compatível com diversos ambientes de desenvolvimento.
Embora Patronus AI não tenha divulgado preços ou projeções de receita, o foco da empresa em supervisão de grau empresarial sugere que está se posicionando para o lucrativo mercado de segurança em IA que os analistas preveem que crescerá substancialmente à medida que a adoção de IA acelere.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós lhe damos as últimas informações sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Conheça o AlphaEvolve, a IA do Google que escreve seu próprio código — e acabou de economizar milhões em custos de computação.
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre coberturas de IA líderes do setor. Saiba…
OpenAI se compromete a publicar resultados de testes de segurança em IA com mais frequência.
[the_ad id="145565"] A OpenAI está se movendo para publicar os resultados de suas avaliações internas de segurança de modelos de IA com mais regularidade, em um esforço que a…
Grok AI de Elon Musk está enchendo os usuários do X com mensagens sobre as relações raciais na África do Sul, agora, por algum motivo.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder de mercado. Saiba Mais…