A OpenAI lança o o3-mini, seu mais recente modelo de 'raciocínio'

A OpenAI lançou, na sexta-feira, um novo modelo de raciocínio em IA, o o3-mini, que é o mais recente da família de modelos de raciocínio da empresa, chamada “o”.

A OpenAI apresentou o modelo pela primeira vez em dezembro, juntamente com um sistema mais poderoso chamado o3, mas o lançamento ocorre em um momento crucial para a empresa, cujas ambições — e desafios — parecem crescer a cada dia.

A OpenAI enfrenta a percepção de que está perdendo terreno na corrida da IA para empresas chinesas como a DeepSeek, a qual a OpenAI alega que pode ter roubado sua propriedade intelectual. A empresa tem tentado fortalecer seu relacionamento com Washington enquanto simultaneamente avança em um projeto ambicioso de data center e, segundo relatos, se prepara para uma das maiores rodadas de financiamento da história.

Isso nos leva ao o3-mini. A OpenAI está promovendo seu novo modelo como “poderoso” e “acessível”.

“O lançamento de hoje marca […] um passo importante em direção à ampliação do acesso à IA avançada em serviço da nossa missão”, declarou um porta-voz da OpenAI ao TechCrunch.

Raciocínio mais eficiente

Diferentemente da maioria dos modelos de linguagem de grande porte, modelos de raciocínio como o o3-mini se auto-verificam cuidadosamente antes de fornecer resultados. Isso ajuda a evitar algumas armadilhas que normalmente confundem modelos. Esses modelos de raciocínio levam um pouco mais de tempo para chegar a soluções, mas a troca é que tendem a ser mais confiáveis — embora não perfeitos — em domínios como a física.

O o3-mini é ajustado para problemas de STEM, especificamente para programação, matemática e ciências. A OpenAI afirma que o modelo é em grande parte comparável à família o1, o1 e o1-mini, em termos de capacidades, mas opera de forma mais rápida e a um custo menor.

A empresa afirmou que testadores externos preferiam as respostas do o3-mini em relação às do o1-mini mais da metade das vezes. O o3-mini aparentemente também cometeu 39% menos “erros graves” em “questões desafiadoras do mundo real” em testes A/B em comparação com o o1-mini, e produziu respostas “mais claras” enquanto entregava as respostas cerca de 24% mais rápido.

O o3-mini estará disponível para todos os usuários via ChatGPT a partir de sexta-feira, mas usuários que pagam pelos planos ChatGPT Plus e Team terão um limite de 150 consultas por dia. Assinantes do ChatGPT Pro terão acesso ilimitado, e o o3-mini estará disponível para clientes do ChatGPT Enterprise e ChatGPT Edu em uma semana. (Ainda não há informações sobre o ChatGPT Gov).

Usuários com planos premium podem selecionar o o3-mini usando o menu suspenso do ChatGPT. Usuários gratuitos podem clicar ou tocar no novo botão “Raciocinar” na barra de chat, ou pedir ao ChatGPT para “re-gerar” uma resposta.

A partir de sexta-feira, o o3-mini também estará disponível via API da OpenAI para desenvolvedores selecionados, mas inicialmente não terá suporte para análise de imagens. Os desenvolvedores podem selecionar o nível de “esforço de raciocínio” (baixo, médio ou alto) para fazer o o3-mini “pensar mais” com base em suas necessidades de uso e latência.

O o3-mini é precificado em $0,55 por milhão de tokens de entrada em cache e $4,40 por milhão de tokens de saída, onde um milhão de tokens equivale a aproximadamente 750.000 palavras. Isso representa uma redução de 63% em relação ao o1-mini, e é competitivo com a precificação do modelo de raciocínio R1 da DeepSeek. A DeepSeek cobra $0,14 por milhão de tokens de entrada em cache e $2,19 por milhão de tokens de saída para acesso ao R1 através de sua API.

No ChatGPT, o o3-mini está configurado para um esforço de raciocínio médio, que a OpenAI afirma que oferece “um equilíbrio entre velocidade e precisão”. Usuários pagos terão a opção de selecionar “o3-mini-alto” no seletor de modelo, o que proporcionará o que a OpenAI chama de “inteligência superior” em troca de respostas mais lentas.

Independentemente de qual versão do o3-mini os usuários do ChatGPT escolham, o modelo irá trabalhar com busca para encontrar respostas atualizadas com links para fontes relevantes na web. A OpenAI alerta que a funcionalidade é um “protótipo” enquanto trabalha para integrar busca em seus modelos de raciocínio.

“Enquanto o o1 continua sendo nosso modelo de raciocínio de conhecimento geral mais amplo, o o3-mini fornece uma alternativa especializada para domínios técnicos que exigem precisão e rapidez”, escreveu a OpenAI em um post no blog na sexta-feira. “O lançamento do o3-mini marca mais um passo na missão da OpenAI de ampliar os limites da inteligência custo-efetiva.”

Cuidado é necessário

O o3-mini não é o modelo mais poderoso da OpenAI até o momento, nem salta à frente do modelo de raciocínio R1 da DeepSeek em todos os benchmarks.

O o3-mini supera o R1 no AIME 2024, um teste que mede como os modelos entendem e respondem a instruções complexas — mas apenas com alto esforço de raciocínio. Ele também supera o R1 no teste focado em programação SWE-bench Verified (por 0,1 ponto), mas novamente, apenas com alto esforço de raciocínio. Em baixo esforço de raciocínio, o o3-mini fica atrás do R1 no GPQA Diamond, que testa modelos com questões de física, biologia e química em nível de PhD.

Para ser justo, o o3-mini responde a muitas consultas a um custo e latência competitivos. No post, a OpenAI compara seu desempenho com a família o1:

“Com baixo esforço de raciocínio, o o3-mini alcança desempenho comparável ao o1-mini, enquanto com esforço médio, o o3-mini alcança desempenho comparável ao o1”, afirma a OpenAI. “O o3-mini com esforço médio iguala o desempenho do o1 em matemática, codificação e ciências enquanto entrega respostas mais rápidas. Enquanto isso, com alto esforço de raciocínio, o o3-mini supera tanto o o1-mini quanto o o1.”

Vale a pena notar que a vantagem de desempenho do o3-mini sobre o o1 é sutil em algumas áreas. No AIME 2024, o o3-mini supera o o1 por apenas 0,3 pontos percentuais quando configurado para alto esforço de raciocínio. E no GPQA Diamond, o o3-mini não supera a pontuação do o1 mesmo com alto esforço de raciocínio.

A OpenAI afirma que o o3-mini é tão “seguro” ou mais seguro que a família o1, graças a esforços de red-teaming e à sua metodologia de “alinhamento deliberativo”, que faz com que os modelos “pensem” nas políticas de segurança da OpenAI enquanto respondem a consultas. Segundo a empresa, o o3-mini “supera significativamente” um dos modelos de destaque da OpenAI, o GPT-4o, em “avaliações desafiadoras de segurança e jailbreak.”

A TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada toda quarta-feira.