Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais.
A OpenAI anunciou hoje em sua conta voltada para desenvolvedores na rede social X que desenvolvedores de software de terceiros agora podem acessar o ajuste fino de reforço (RFT) para seu novo modelo de raciocínio linguístico o4-mini. Isso permite que eles personalizem uma nova versão privada com base nos produtos únicos de suas empresas, terminologia interna, metas, funcionários, processos e mais.
Essencialmente, essa capacidade permite que os desenvolvedores adaptem o modelo disponível ao público geral para melhor atender às suas necessidades por meio do painel da plataforma da OpenAI.
Em seguida, eles podem implementá-lo através da interface de programação de aplicativos (API) da OpenAI, outra parte de sua plataforma de desenvolvedores, e conectá-lo aos computadores internos dos funcionários, bancos de dados e aplicativos.
Uma vez implantado, se um funcionário ou líder da empresa quiser utilizá-lo por meio de um chatbot interno personalizado ou personalizado OpenAI GPT para acessar conhecimentos privados e proprietários da empresa, responder perguntas específicas sobre produtos e políticas da empresa ou gerar novas comunicações e materiais na voz da empresa, eles podem fazer isso mais facilmente com sua versão RFT do modelo.
Entretanto, uma nota de cautela: pesquisas mostraram que modelos ajustados podem ser mais propensos a jailbreaks e alucinações, então prossiga com cautela!
Este lançamento expande as ferramentas de otimização de modelos da empresa além do ajuste fino supervisionado (SFT) e introduz controle mais flexível para tarefas complexas e específicas de domínio.
Adicionalmente, a OpenAI anunciou que o ajuste fino supervisionado agora é suportado para seu modelo nano GPT-4.1, a oferta mais acessível e rápida da empresa até agora.
Como o Ajuste Fino de Reforço (RFT) ajuda organizações e empresas?
O RFT cria uma nova versão do modelo de raciocínio o4-mini da OpenAI que é automaticamente adaptada aos objetivos do usuário ou de sua empresa/organização.
Isso é feito aplicando um ciclo de feedback durante o treinamento, que desenvolvedores de grandes empresas (ou até mesmo desenvolvedores independentes) agora podem iniciar de maneira relativamente simples, fácil e acessível através da plataforma online para desenvolvedores da OpenAI.
Em vez de treinar um conjunto de perguntas com respostas fixas — que é o que o aprendizado supervisionado tradicional faz — o RFT usa um modelo avaliador para pontuar várias respostas candidatas por prompt.
O algoritmo de treinamento então ajusta os pesos do modelo para tornar saídas de alta pontuação mais prováveis.
Essa estrutura permite que os clientes alinhem modelos com objetivos sutis, como o “estilo de comunicação” da empresa, regras de segurança, precisão factual ou conformidade com políticas internas.
Para realizar o RFT, os usuários precisam:
- Definir uma função de avaliação ou usar avaliadores baseados em modelos da OpenAI.
- Carregar um conjunto de dados com prompts e divisões de validação.
- Configurar um trabalho de treinamento via API ou o painel de ajuste fino.
- Monitorar o progresso, revisar checkpoints e iterar sobre os dados ou lógica de avaliação.
Atualmente, o RFT suporta apenas modelos de raciocínio da série o e está disponível para o modelo o4-mini.
Casos de uso inicial em empresas
Em sua plataforma, a OpenAI destacou vários clientes iniciais que adotaram o RFT em diversas indústrias:
- Accordance AI utilizou RFT para ajustar um modelo para tarefas de análise tributária complexas, alcançando uma melhoria de 39% na precisão e superando todos os modelos líderes em benchmarks de raciocínio tributário.
- Ambience Healthcare aplicou RFT na atribuição de códigos médicos ICD-10, aumentando o desempenho do modelo em 12 pontos em relação às referências de médicos em um conjunto de dados de painel de ouro.
- Harvey utilizou RFT para análise de documentos legais, melhorando em 20% as pontuações de extração de citações F1 e igualando a precisão do GPT-4o, enquanto alcançou inferência mais rápida.
- Runloop ajustou modelos para gerar trechos de código da API do Stripe, usando avaliadores sensíveis à sintaxe e lógica de validação AST, alcançando uma melhoria de 12%.
- Milo aplicou RFT em tarefas de agendamento, aumentando a precisão em situações de alta complexidade em 25 pontos.
- SafetyKit usou RFT para impor políticas de moderação de conteúdo sutis e aumentou o F1 do modelo de 86% para 90% em produção.
- ChipStack, Thomson Reuters e outros parceiros também demonstraram ganhos de desempenho na geração de dados estruturados, tarefas de comparação legal e fluxos de trabalho de verificação.
Esses casos compartilharam frequentemente características: definições claras de tarefas, formatos de saída estruturados e critérios de avaliação confiáveis — todos essenciais para um ajuste fino de reforço eficaz.
O RFT está disponível agora para organizações verificadas. Para ajudar a melhorar modelos futuros, a OpenAI oferece equipes que compartilham seus conjuntos de dados de treinamento com a OpenAI um desconto de 50%. Desenvolvedores interessados podem começar usando a documentação do RFT da OpenAI e o painel.
Estrutura de preços e cobrança
Diferentemente do ajuste fino supervisionado ou por preferência, que é cobrado por token, o RFT é cobrado com base no tempo gasto ativamente treinando. Especificamente:
- $100 por hora de tempo de treinamento central (tempo real durante implementações do modelo, avaliações, atualizações e validação).
- O tempo é pro-rata por segundo, arredondado para duas casas decimais (assim, 1,8 horas de treinamento custariam ao cliente $180).
- As cobranças se aplicam apenas ao trabalho que modifica o modelo. Filas, verificações de segurança e fases de configuração ociosas não são cobradas.
- Se o usuário empregar modelos da OpenAI como avaliadores (por exemplo, GPT-4.1), os tokens de inferência consumidos durante a avaliação são cobrados separadamente nas tarifas padrão da API da OpenAI. Caso contrário, a empresa pode usar modelos externos, incluindo os de código aberto, como avaliadores.
Aqui está um exemplo de detalhamento de custos:
Cenário | Tempo Faturável | Custo |
---|---|---|
4 horas de treinamento | 4 horas | $400 |
1,75 horas (pro-rata) | 1,75 horas | $175 |
2 horas de treinamento + 1 hora perdida (devido a falha) | 2 horas | $200 |
Este modelo de preços fornece transparência e recompensa um design de trabalho eficiente. Para controlar custos, a OpenAI incentiva equipes a:
- Usar avaliadores leves ou eficientes sempre que possível.
- Evitar validações excessivamente frequentes, a menos que necessário.
- Começar com conjuntos de dados menores ou execuções mais curtas para calibrar expectativas.
- Monitorar o treinamento com ferramentas da API ou do painel e pausar conforme necessário.
A OpenAI utiliza um método de cobrança chamado “progresso capturado”, significando que os usuários são cobrados apenas pelos passos de treinamento do modelo que foram concluídos com sucesso e retidos.
Então, sua organização deve investir em RFT para uma versão personalizada do o4-mini da OpenAI ou não?
O ajuste fino de reforço introduz um método mais expressivo e controlável para adaptar modelos de linguagem a casos de uso do mundo real.
Com suporte para saídas estruturadas, avaliadores baseados em código e modelo, e controle total da API, o RFT permite um novo nível de personalização na implantação de modelos. O lançamento da OpenAI enfatiza um design de tarefa cuidadoso e uma avaliação robusta como chaves para o sucesso.
Desenvolvedores interessados em explorar esse método podem acessar documentação e exemplos através do painel de ajuste fino da OpenAI.
Para organizações com problemas claramente definidos e respostas verificáveis, o RFT oferece uma maneira atraente de alinhar modelos com metas operacionais ou de conformidade — sem a necessidade de construir uma infraestrutura de RL do zero.
Insights diários sobre casos de uso nos negócios com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo coberto. Nós oferecemos a você a dica interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Zencoder lança Zen Agents, inaugurando uma nova era de IA em equipe para o desenvolvimento de software.
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas líderes do setor em IA. Saiba mais…
SoundCloud altera políticas para permitir treinamento de IA com conteúdo dos usuários.
[the_ad id="145565"] O SoundCloud aparentemente mudou silenciosamente seus termos de uso para permitir que a empresa treine IA com o áudio que os usuários enviam para sua…
Google I/O 2025: O que esperar, incluindo atualizações do Gemini e do Android 16
[the_ad id="145565"] O Google I/O, a maior conferência de desenvolvedores do Google, está quase chegando. Agendado para os dias 20 e 21 de maio no Shoreline Amphitheatre em…