Bolt42


Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder de mercado. Saiba Mais

OctoTools, uma nova plataforma agente aberta lançada por cientistas da Universidade de Stanford, pode potencializar grandes modelos de linguagem (LLMs) para tarefas de raciocínio, dividindo tarefas em subunidades e aprimorando os modelos com ferramentas. Embora o uso de ferramentas já tenha se tornado uma aplicação importante dos LLMs, o OctoTools torna essas capacidades muito mais acessíveis ao remover barreiras técnicas e permitir que desenvolvedores e empresas estendam a plataforma com suas próprias ferramentas e fluxos de trabalho.

Experimentos mostram que o OctoTools supera métodos clássicos de prompting e outras estruturas de aplicação LLM, tornando-se uma ferramenta promissora para usos reais de modelos de IA.

Os LLMs frequentemente enfrentam dificuldades em tarefas de raciocínio que envolvem múltiplas etapas, decomposição lógica ou conhecimento especializado de domínio. Uma solução é terceirizar etapas específicas da solução para ferramentas externas, como calculadoras, interpretadores de código, mecanismos de busca ou ferramentas de processamento de imagem. Nesse cenário, o modelo se concentra em planejamento de alto nível, enquanto o cálculo e o raciocínio reais são realizados através das ferramentas.

No entanto, o uso de ferramentas apresenta seus próprios desafios. Por exemplo, LLMs clássicos frequentemente requerem treinamento substancial ou aprendizado com poucos exemplos com dados curados para se adaptar a novas ferramentas, e uma vez augmentados, ficarão limitados a domínios e tipos de ferramentas específicos.

A seleção de ferramentas também continua sendo um ponto problemático. Os LLMs podem se tornar proficientes em usar uma ou poucas ferramentas, mas quando uma tarefa requer o uso de várias ferramentas, eles podem ficar confusos e apresentar um desempenho ruim.

OctoTools framework (fonte: GitHub)

O OctoTools aborda esses pontos problemáticos por meio de uma estrutura agente sem treinamento que pode orquestrar várias ferramentas sem a necessidade de ajustar ou refinar os modelos. O OctoTools utiliza uma abordagem modular para lidar com tarefas de planejamento e raciocínio e pode usar qualquer LLM de propósito geral como sua espinha dorsal.

Entre os principais componentes do OctoTools estão os “cartões de ferramentas”, que atuam como envoltórios para as ferramentas que o sistema pode usar, como interpretadores de código Python e APIs de busca na web. Os cartões de ferramentas incluem metadados como formatos de entrada e saída, limitações e melhores práticas para cada ferramenta. Os desenvolvedores podem adicionar seus próprios cartões de ferramentas à estrutura para adequá-los às suas aplicações.

Quando um novo prompt é inserido no OctoTools, um módulo “planejador” utiliza o LLM de base para gerar um plano de alto nível que resume o objetivo, analisa as habilidades necessárias, identifica ferramentas relevantes e inclui considerações adicionais para a tarefa. O planejador determina um conjunto de subobjetivos que o sistema precisa atingir para completar a tarefa e os descreve em um plano de ação baseado em texto.

Para cada passo do plano, um módulo “preditor de ação” refina o subobjetivo para especificar a ferramenta necessária para alcançá-lo e garantir que seja executável e verificável.

Uma vez que o plano está pronto para ser executado, um “gerador de comandos” mapeia o plano baseado em texto para código Python que invoca as ferramentas especificadas para cada subobjetivo, passando o comando para o “executor de comando”, que executa o comando em um ambiente Python. Os resultados de cada etapa são validados por um módulo “verificador de contexto” e o resultado final é consolidado por um “resumidor de solução”.

Exemplo de componentes do OctoTools (fonte: GitHub)

“Separando o planejamento estratégico da geração de comandos, o OctoTools reduz erros e aumenta a transparência, tornando o sistema mais confiável e mais fácil de manter”, afirmam os pesquisadores.

O OctoTools também utiliza um algoritmo de otimização para selecionar o melhor subconjunto de ferramentas para cada tarefa. Isso ajuda a evitar sobrecarregar o modelo com ferramentas irrelevantes.

Estruturas agente

Existem várias estruturas para criar aplicações LLM e sistemas agentes, incluindo Microsoft AutoGen, LangChain e “chamada de função” da OpenAI API. De acordo com seus desenvolvedores, o OctoTools supera essas plataformas em tarefas que requerem raciocínio e uso de ferramentas.

OctoTools vs outras estruturas agentes (fonte: GitHub)

Os pesquisadores testaram todas as estruturas em vários benchmarks de raciocínio visual, matemático e científico, bem como conhecimento médico e tarefas agentes. O OctoTools alcançou um ganho médio de precisão de 10,6% em relação ao AutoGen, 7,5% em relação ao GPT-Functions e 7,3% em relação ao LangChain ao usar as mesmas ferramentas. Segundo os pesquisadores, a razão para o melhor desempenho do OctoTools é sua distribuição superior de uso de ferramentas e a decomposição adequada da consulta em subobjetivos.

O OctoTools oferece às empresas uma solução prática para usar LLMs em tarefas complexas. Sua integração de ferramentas extensível ajudará a superar as barreiras existentes para criar aplicações avançadas de raciocínio em IA. Os pesquisadores lançaram o código do OctoTools no GitHub.

Diariamente, perceba insights sobre casos de uso comercial com o VB Daily. Se você quer impressionar seu chefe, o VB Daily tem tudo para você. Nós trazemos informações privilegiadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.


    dezenove − 5 =

    Bolt42