OpenAI lança processamento Flex para tarefas de IA mais baratas e lentas

Com o objetivo de competir de forma mais agressiva com empresas rivais de IA como o Google, a OpenAI está lançando o processamento Flex, uma opção de API que oferece preços mais baixos para o uso de modelos de IA em troca de tempos de resposta mais lentos e “ocasionais indisponibilidades de recurso”.

O processamento Flex, que está disponível em beta para os recém-lançados modelos de raciocínio o3 e o4-mini da OpenAI, é voltado para tarefas de menor prioridade e “não produtivas”, como avaliações de modelos, enriquecimento de dados e cargas de trabalho assíncronas, segundo a OpenAI.

Ele reduz os custos da API exatamente pela metade. Para o o3, o processamento Flex custa $5/M tokens de entrada (~750.000 palavras) e $20/M tokens de saída em comparação com os padrões de $10/M tokens de entrada e $40/M tokens de saída. Para o o4-mini, o Flex reduz o preço para $0,55/M tokens de entrada e $2,20/M tokens de saída, de $1,10/M tokens de entrada e $4,40/M tokens de saída.

O lançamento do processamento Flex ocorre em um momento em que os preços da IA de ponta continuam a subir, e enquanto rivais liberam modelos de orçamento mais baratos e eficientes. Na quinta-feira, o Google lançou o Gemini 2.5 Flash, um modelo de raciocínio que iguala ou supera o desempenho do R1 da DeepSeek a um custo menor por token de entrada.

Em um e-mail para clientes anunciando o lançamento da precificação Flex, a OpenAI também indicou que os desenvolvedores nos níveis 1-3 de sua hierarquia de tiers de uso terão que completar o recém-introduzido processo de verificação de ID para acessar o o3. (Os níveis são determinados pela quantidade de dinheiro gasta em serviços da OpenAI.) Os resumos de raciocínio e o suporte para a API de streaming do o3 — e de outros modelos — também estão condicionados à verificação.

A OpenAI anteriormente afirmou que a verificação de ID é destinada a impedir que agentes mal-intencionados violem suas políticas de uso.