Bolt42

Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais.


A OpenAI anunciou hoje em sua conta voltada para desenvolvedores na rede social X que desenvolvedores de software de terceiros agora podem acessar o ajuste fino de reforço (RFT) para seu novo modelo de raciocínio linguístico o4-mini. Isso permite que eles personalizem uma nova versão privada com base nos produtos únicos de suas empresas, terminologia interna, metas, funcionários, processos e mais.

Essencialmente, essa capacidade permite que os desenvolvedores adaptem o modelo disponível ao público geral para melhor atender às suas necessidades por meio do painel da plataforma da OpenAI.

Em seguida, eles podem implementá-lo através da interface de programação de aplicativos (API) da OpenAI, outra parte de sua plataforma de desenvolvedores, e conectá-lo aos computadores internos dos funcionários, bancos de dados e aplicativos.

Uma vez implantado, se um funcionário ou líder da empresa quiser utilizá-lo por meio de um chatbot interno personalizado ou personalizado OpenAI GPT para acessar conhecimentos privados e proprietários da empresa, responder perguntas específicas sobre produtos e políticas da empresa ou gerar novas comunicações e materiais na voz da empresa, eles podem fazer isso mais facilmente com sua versão RFT do modelo.

Entretanto, uma nota de cautela: pesquisas mostraram que modelos ajustados podem ser mais propensos a jailbreaks e alucinações, então prossiga com cautela!

Este lançamento expande as ferramentas de otimização de modelos da empresa além do ajuste fino supervisionado (SFT) e introduz controle mais flexível para tarefas complexas e específicas de domínio.

Adicionalmente, a OpenAI anunciou que o ajuste fino supervisionado agora é suportado para seu modelo nano GPT-4.1, a oferta mais acessível e rápida da empresa até agora.

Como o Ajuste Fino de Reforço (RFT) ajuda organizações e empresas?

O RFT cria uma nova versão do modelo de raciocínio o4-mini da OpenAI que é automaticamente adaptada aos objetivos do usuário ou de sua empresa/organização.

Isso é feito aplicando um ciclo de feedback durante o treinamento, que desenvolvedores de grandes empresas (ou até mesmo desenvolvedores independentes) agora podem iniciar de maneira relativamente simples, fácil e acessível através da plataforma online para desenvolvedores da OpenAI.

Em vez de treinar um conjunto de perguntas com respostas fixas — que é o que o aprendizado supervisionado tradicional faz — o RFT usa um modelo avaliador para pontuar várias respostas candidatas por prompt.

O algoritmo de treinamento então ajusta os pesos do modelo para tornar saídas de alta pontuação mais prováveis.

Essa estrutura permite que os clientes alinhem modelos com objetivos sutis, como o “estilo de comunicação” da empresa, regras de segurança, precisão factual ou conformidade com políticas internas.

Para realizar o RFT, os usuários precisam:

  1. Definir uma função de avaliação ou usar avaliadores baseados em modelos da OpenAI.
  2. Carregar um conjunto de dados com prompts e divisões de validação.
  3. Configurar um trabalho de treinamento via API ou o painel de ajuste fino.
  4. Monitorar o progresso, revisar checkpoints e iterar sobre os dados ou lógica de avaliação.

Atualmente, o RFT suporta apenas modelos de raciocínio da série o e está disponível para o modelo o4-mini.

Casos de uso inicial em empresas

Em sua plataforma, a OpenAI destacou vários clientes iniciais que adotaram o RFT em diversas indústrias:

  • Accordance AI utilizou RFT para ajustar um modelo para tarefas de análise tributária complexas, alcançando uma melhoria de 39% na precisão e superando todos os modelos líderes em benchmarks de raciocínio tributário.
  • Ambience Healthcare aplicou RFT na atribuição de códigos médicos ICD-10, aumentando o desempenho do modelo em 12 pontos em relação às referências de médicos em um conjunto de dados de painel de ouro.
  • Harvey utilizou RFT para análise de documentos legais, melhorando em 20% as pontuações de extração de citações F1 e igualando a precisão do GPT-4o, enquanto alcançou inferência mais rápida.
  • Runloop ajustou modelos para gerar trechos de código da API do Stripe, usando avaliadores sensíveis à sintaxe e lógica de validação AST, alcançando uma melhoria de 12%.
  • Milo aplicou RFT em tarefas de agendamento, aumentando a precisão em situações de alta complexidade em 25 pontos.
  • SafetyKit usou RFT para impor políticas de moderação de conteúdo sutis e aumentou o F1 do modelo de 86% para 90% em produção.
  • ChipStack, Thomson Reuters e outros parceiros também demonstraram ganhos de desempenho na geração de dados estruturados, tarefas de comparação legal e fluxos de trabalho de verificação.

Esses casos compartilharam frequentemente características: definições claras de tarefas, formatos de saída estruturados e critérios de avaliação confiáveis — todos essenciais para um ajuste fino de reforço eficaz.

O RFT está disponível agora para organizações verificadas. Para ajudar a melhorar modelos futuros, a OpenAI oferece equipes que compartilham seus conjuntos de dados de treinamento com a OpenAI um desconto de 50%. Desenvolvedores interessados podem começar usando a documentação do RFT da OpenAI e o painel.

Estrutura de preços e cobrança

Diferentemente do ajuste fino supervisionado ou por preferência, que é cobrado por token, o RFT é cobrado com base no tempo gasto ativamente treinando. Especificamente:

  • $100 por hora de tempo de treinamento central (tempo real durante implementações do modelo, avaliações, atualizações e validação).
  • O tempo é pro-rata por segundo, arredondado para duas casas decimais (assim, 1,8 horas de treinamento custariam ao cliente $180).
  • As cobranças se aplicam apenas ao trabalho que modifica o modelo. Filas, verificações de segurança e fases de configuração ociosas não são cobradas.
  • Se o usuário empregar modelos da OpenAI como avaliadores (por exemplo, GPT-4.1), os tokens de inferência consumidos durante a avaliação são cobrados separadamente nas tarifas padrão da API da OpenAI. Caso contrário, a empresa pode usar modelos externos, incluindo os de código aberto, como avaliadores.

Aqui está um exemplo de detalhamento de custos:

Cenário Tempo Faturável Custo
4 horas de treinamento 4 horas $400
1,75 horas (pro-rata) 1,75 horas $175
2 horas de treinamento + 1 hora perdida (devido a falha) 2 horas $200

Este modelo de preços fornece transparência e recompensa um design de trabalho eficiente. Para controlar custos, a OpenAI incentiva equipes a:

  • Usar avaliadores leves ou eficientes sempre que possível.
  • Evitar validações excessivamente frequentes, a menos que necessário.
  • Começar com conjuntos de dados menores ou execuções mais curtas para calibrar expectativas.
  • Monitorar o treinamento com ferramentas da API ou do painel e pausar conforme necessário.

A OpenAI utiliza um método de cobrança chamado “progresso capturado”, significando que os usuários são cobrados apenas pelos passos de treinamento do modelo que foram concluídos com sucesso e retidos.

Então, sua organização deve investir em RFT para uma versão personalizada do o4-mini da OpenAI ou não?

O ajuste fino de reforço introduz um método mais expressivo e controlável para adaptar modelos de linguagem a casos de uso do mundo real.

Com suporte para saídas estruturadas, avaliadores baseados em código e modelo, e controle total da API, o RFT permite um novo nível de personalização na implantação de modelos. O lançamento da OpenAI enfatiza um design de tarefa cuidadoso e uma avaliação robusta como chaves para o sucesso.

Desenvolvedores interessados em explorar esse método podem acessar documentação e exemplos através do painel de ajuste fino da OpenAI.

Para organizações com problemas claramente definidos e respostas verificáveis, o RFT oferece uma maneira atraente de alinhar modelos com metas operacionais ou de conformidade — sem a necessidade de construir uma infraestrutura de RL do zero.





    2 × 1 =




    Bolt42