Bolt42

Inscreva-se em nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de líderes do setor. Saiba mais

A previsão de muitos especialistas é que 2025 seria o ano dos agentes de IA – implementações de IA específicas para tarefas, impulsionadas por modelos de linguagem de grande porte e multimodais (LLMs) oferecidos por empresas como OpenAI, Anthropic, Google e DeepSeek.

No entanto, até o momento, a maioria dos agentes de IA permanece restrita a pilotos experimentais em uma espécie de purgatório corporativo, de acordo com uma pesquisa recente realizada pela VentureBeat na rede social X.

Parece que há ajuda a caminho: uma equipe colaborativa da Universidade Northwestern, Microsoft, Stanford e Universidade de Washington – incluindo um ex-pesquisador da DeepSeek chamado Zihan Wang, que atualmente está concluindo um doutorado em ciência da computação em Northwestern – apresentou o RAGEN, um novo sistema para treinar e avaliar agentes de IA que esperam tornar mais confiáveis e menos frágeis para uso em grandes empresas.

Diferentemente de tarefas estáticas como resolução de matemática ou geração de código, o RAGEN foca em ambientes interativos de múltiplas interações, onde os agentes devem se adaptar, lembrar e raciocinar diante da incerteza.

Construído em uma estrutura de RL customizada chamada StarPO (State-Thinking-Actions-Reward Policy Optimization), o sistema explora como LLMs podem aprender por meio da experiência em vez de memorização. O foco está em trajetórias completas de tomada de decisão, e não apenas respostas de um único passo.

O StarPO opera em duas fases intercaladas: uma fase de rollout onde o LLM gera sequências de interação completas guiadas pelo raciocínio, e uma fase de atualização onde o modelo é otimizado usando recompensas cumulativas normalizadas. Essa estrutura apoia um ciclo de aprendizado mais estável e interpretável em comparação com as abordagens padrão de otimização de políticas.

Os autores implementaram e testaram a estrutura utilizando variantes ajustadas dos modelos Qwen da Alibaba, incluindo Qwen 1.5 e Qwen 2.5. Esses modelos serviram como LLMs base para todos os experimentos e foram selecionados por suas capacidades robustas de seguir instruções e seus pesos abertos. Essa decisão possibilitou reprodutibilidade e comparações consistentes de base em tarefas simbólicas.

A seguir, veja como fizeram isso e o que descobriram:

O Echo trap: como as recompensas do aprendizado por reforço levam à perda de raciocínio do LLM

Wang resumiu o desafio central em um thread popular na X: Por que seu treinamento por RL sempre colapsa?

De acordo com a equipe, os agentes LLM inicialmente geram respostas simbólicas e bem-raciocionadas. Mas, com o tempo, os sistemas de RL tendem a recompensar atalhos, levando a comportamentos repetitivos que degradam o desempenho geral – um padrão que eles chamam de “Echo Trap.”

Essa regressão é impulsionada por ciclos de feedback onde certas frases ou estratégias recebem altas recompensas inicialmente, incentivando o uso excessivo e sufocando a exploração.

Wang observa que os sintomas são mensuráveis: descontinuidades de variância de recompensas, picos de gradientes e vestígios de raciocínio que desaparecem.

Ambientes de teste do RAGEN não são exatamente de nível empresarial

Para estudar esses comportamentos em um ambiente controlado, o RAGEN avalia agentes em três ambientes simbólicos:

  • Bandit: Uma tarefa estocástica de turno único que testa o raciocínio simbólico de risco-recompensa.
  • Sokoban: Um quebra-cabeça determinístico de múltiplos turnos, envolvendo decisões irreversíveis.
  • Frozen Lake: Uma tarefa estocástica de múltiplos turnos que exige planejamento adaptativo.

Cada ambiente é projetado para minimizar os conhecimentos prévios do mundo real e focar exclusivamente nas estratégias de tomada de decisão desenvolvidas durante o treinamento.

No ambiente Bandit, por exemplo, os agentes são informados de que os braços Dragon e Phoenix representam diferentes distribuições de recompensa.

Em vez de receber as probabilidades diretamente, eles devem raciocinar simbolicamente—por exemplo, interpretando Dragon como “força” e Phoenix como “esperança”—para prever resultados. Esse tipo de configuração pressiona o modelo a gerar raciocínio explicável e analógico.

Estabilizando o aprendizado por reforço com StarPO-S

Para lidar com o colapso do treinamento, os pesquisadores introduziram o StarPO-S, uma versão estabilizada da estrutura original. O StarPO-S incorpora três intervenções principais:

  • Filtragem de rollout baseada em incerteza: Priorizando rollouts onde o agente mostra incerteza de resultado.
  • Remoção da penalidade KL: Permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
  • Ajuste assimétrico de PPO: Ampliando trajetórias de alta recompensa mais do que as de baixa recompensa para aumentar o aprendizado.

Essas mudanças atrasam ou eliminam o colapso do treinamento, melhorando o desempenho em todas as três tarefas. Como Wang colocou: “StarPO-S… funciona em todas as 3 tarefas. Alivia o colapso. Melhor recompensa.”

O que faz um bom modelo de IA agente?

O sucesso do treinamento por RL depende não apenas da arquitetura, mas da qualidade dos dados gerados pelos próprios agentes. A equipe identificou três dimensões que impactam significativamente o treinamento:

  • Diversidade de tarefas: Expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
  • Granularidade da interação: Permitir múltiplas ações por turno possibilita um planejamento mais significativo.
  • Frescor do rollout: Manter os dados de treinamento alinhados com a política atual do modelo evita sinais de aprendizado desatualizados.

Juntas, essas fatores fazem o processo de treinamento mais estável e eficaz.

Um site de demonstração interativa publicado pelos pesquisadores no GitHub torna isso explícito, visualizando rollouts de agentes como turnos de diálogo completos – incluindo não apenas ações, mas o processo de pensamento passo a passo que os precedeu.

Por exemplo, ao resolver um problema de matemática, um agente pode primeiro ‘pensar’ em isolar uma variável e, em seguida, apresentar uma resposta como ‘x = 5’. Esses pensamentos intermediários são visíveis e rastreáveis, o que adiciona transparência sobre como os agentes chegam a decisões.

Quando o raciocínio acaba

Embora o raciocínio explícito melhore o desempenho em tarefas simples de turno único, como Bandit, tende a decair durante o treinamento de múltiplos turnos. Apesar do uso de prompts estruturados e tokens, os vestígios de raciocínio muitas vezes diminuem ou desaparecem, a menos que sejam diretamente recompensados.

Isso aponta para uma limitação em como as recompensas são tipicamente projetadas: focar na conclusão da tarefa pode negligenciar a qualidade do processo por trás dela. A equipe experimentou penalidades baseadas em formato para incentivar um raciocínio melhor estruturado, mas reconhece que uma modelagem de recompensa mais refinada provavelmente é necessária.

O RAGEN, junto com suas estruturas StarPO e StarPO-S, agora está disponível como um projeto de código aberto em https://github.com/RAGEN-AI/RAGEN.

No entanto, nenhuma licença explícita está listada no repositório do GitHub no momento da redação, o que pode limitar o uso ou redistribuição por outros.

O sistema fornece uma base valiosa para aqueles interessados em desenvolver agentes de IA que não apenas completam tarefas – eles pensam, planejam e evoluem.

Conforme a IA continua a avançar em direção à autonomia, projetos como o RAGEN ajudam a esclarecer o que é necessário para treinar modelos que aprendem não apenas com dados, mas com as consequências de suas próprias ações.

Questões em aberto para a adoção empresarial no mundo real

Embora o artigo do RAGEN ofereça um roteiro técnico detalhado, várias questões práticas permanecem para aqueles que procuram aplicar esses métodos em configurações empresariais.

Por exemplo, quão transferível é a abordagem do RAGEN além de tarefas simbólicas estilizadas? As empresas teriam que projetar ambientes e funções de recompensa completamente novos para usar este sistema em fluxos de trabalho como processamento de faturas ou atendimento ao cliente?

Questionado sobre isso, Wang disse à VentureBeat por mensagem direta na X que:

“Acho que melhorar a diversidade de tarefas pode ajudar, já que as tarefas de jogos atuais têm observações muito similares, como representações de grade, mas não informações semânticas, ou algo assim.”

Quanto às empresas que projetam seus próprios exercícios de treinamento para seus agentes de IA usando o RAGEN, Wang se mostrou otimista, escrevendo:

“Sim, uma coisa muito boa sobre o RAGEN é que alguém pode facilmente adicionar seus próprios ambientes a essa estrutura para treinar em suas próprias tarefas de agentes. No link do Github temos uma introdução simples sobre como adicionar um novo ambiente.”

Outra área crítica é a escalabilidade. Mesmo com as melhorias proporcionadas pelo StarPO-S, o artigo reconhece que o treinamento ainda eventualmente colapsa em horizontes mais longos. Isso levanta a pergunta: há um caminho teórico ou prático para sustentar o raciocínio em sequências de tarefas abertas ou em evolução contínua?

No momento da redação, nenhuma licença explícita está listada no repositório ou documentação do GitHub do RAGEN, deixando abertas questões sobre direitos de uso.

Ainda assim, o RAGEN se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e capazes de raciocínio. Se se tornará parte do conjunto de ferramentas de IA empresarial, ainda está por ser visto, mas seus insights sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento de LLM.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos a você informações privilegiadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.


    18 − 18 =

    Bolt42