Bolt42

Participe de nossos boletins informativos diários e semanais para as atualizações mais recentes e conteúdo exclusivo sobre cobertura de IA líder no setor. Saiba mais


Organizações interessadas em implantar agentes de IA devem primeiro ajustá-los, especialmente em fluxos de trabalho que frequentemente parecem automatizados. Enquanto algumas organizações desejam agentes que realizem apenas um tipo de tarefa em um fluxo de trabalho, às vezes os agentes precisam ser integrados a novos ambientes com a esperança de que se adaptem.

Pesquisadores da Universidade de Postagens e Telecomunicações de Pequim apresentaram um novo método, o AgentRefine. Este método ensina os agentes a se autocorrigirem, resultando em agentes de IA mais generalizados e adaptáveis.

Os pesquisadores afirmaram que os métodos de ajuste atuais limitam os agentes às mesmas tarefas do seu conjunto de dados de treinamento, ou seja, tarefas “mantidas”, e não se saem tão bem em ambientes “não mantidos” ou novos. Ao seguir apenas as regras definidas através dos dados de treinamento, os agentes treinados com essas estruturas teriam dificuldades para “aprender” com seus erros e não podem se tornar agentes gerais nem serem integrados a novos fluxos de trabalho.

Para combater essa limitação, o AgentRefine visa criar conjuntos de dados de treinamento de agentes mais generalizados que possibilitem ao modelo aprender com os erros e se encaixar em novos fluxos de trabalho. Em um novo artigo, os pesquisadores disseram que o objetivo do AgentRefine é “desenvolver dados de ajuste de agentes generalizados e estabelecer a correlação entre a generalização de agentes e a auto-refinação.” Se os agentes se autocorrigirem, não perpetuarão erros que aprenderam e não levarão esses mesmos erros a outros ambientes nos quais são implantados.

“Constatamos que o ajuste de agentes com os dados de auto-refinação melhora a capacidade do agente de explorar ações mais viáveis ao enfrentar situações ruins, resultando assim em uma melhor generalização para novos ambientes de agente,” escrevem os pesquisadores.

Treinamento de agentes de IA inspirado por D&D

Tomando como referência o jogo de RPG de mesa Dungeons & Dragons, os pesquisadores criaram personas, roteiros para os agentes seguirem e desafios. E sim, há um Mestre da Masmorra (DM).

Eles dividiram a construção de dados para o AgentRefine em três áreas: geração de roteiros, geração de trajetórias e verificação.

Na geração de roteiros, o modelo cria um roteiro, ou guia, com informações sobre o ambiente, tarefas e ações que as personas podem realizar. (Os pesquisadores testaram o AgentRefine utilizando Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini e GPT-4o)

O modelo, então, gera dados de agentes que apresentam erros e atua tanto como um DM quanto como um jogador durante a fase de trajetória. Ele avalia as ações que pode realizar e verifica se estas contêm erros. A última etapa, verificação, confere o roteiro e a trajetória, permitindo a possibilidade de autocorreção para os agentes que treina.

Melhores e mais diversas habilidades de tarefas

Os pesquisadores descobriram que os agentes treinados utilizando o método e o conjunto de dados do AgentRefine tiveram um desempenho melhor em tarefas diversas e se adaptaram a novos cenários. Esses agentes se autocorrigem mais, redirecionando suas ações e tomada de decisões para evitar erros, tornando-se mais robustos no processo.

Em particular, o AgentRefine melhorou o desempenho de todos os modelos em tarefas não mantidas.

As empresas precisam tornar os agentes mais adaptáveis às tarefas, para que não repitam apenas o que aprenderam, permitindo que se tornem melhores tomadores de decisões. Orquestrar agentes não apenas “dirige o tráfego” para múltiplos agentes, mas também determina se os agentes concluíram tarefas com base nas solicitações dos usuários.

A o3 da OpenAI oferece “sintese de programas”, que poderia melhorar a adaptabilidade das tarefas. Outras estruturas de orquestração e treinamento, como o Magentic-One da Microsoft, definem ações para que agentes supervisores aprendam quando transferir tarefas para diferentes agentes.





    quinze − 9 =




    Bolt42