Bolt42

OpenAI lançou uma nova família de modelos de IA esta manhã que melhora significativamente as habilidades de programação enquanto reduz custos, respondendo diretamente à crescente competição no mercado de IA empresarial.

A empresa de IA baseada em San Francisco apresentou três modelos — GPT-4.1, GPT-4.1 mini e GPT-4.1 nano — todos disponíveis imediatamente através de sua API. A nova linha apresenta melhor desempenho em tarefas de engenharia de software, segue instruções com mais precisão e pode processar até um milhão de tokens de contexto, equivalente a cerca de 750.000 palavras.

“O GPT-4.1 oferece desempenho excepcional a um custo mais baixo,” disse Kevin Weil, diretor de produtos da OpenAI, durante o anúncio de segunda-feira. “Esses modelos são superiores ao GPT-4o em praticamente todas as dimensões.”

Talvez o mais significativo para os clientes empresariais seja o preço: GPT-4.1 custará 26% menos que seu antecessor, enquanto a versão leve nano se torna a oferta mais acessível da OpenAI a apenas 12 centavos por milhão de tokens.

Como as melhorias do GPT-4.1 visam os maiores desafios dos desenvolvedores empresariais

Em uma entrevista franca com a VentureBeat, Michelle Pokrass, líder de pesquisa pós-treinamento da OpenAI, enfatizou que as aplicações práticas de negócios impulsionaram o processo de desenvolvimento.

“O GPT-4.1 foi treinado com um objetivo: ser útil para os desenvolvedores,” disse Pokrass à VentureBeat. “Descobrimos que o GPT-4.1 é muito melhor em seguir os tipos de instruções que as empresas usam na prática, o que facilita a implantação de aplicações prontas para produção.”

Esse foco na utilidade do mundo real se reflete nos resultados dos testes. No SWE-bench Verified, que mede as capacidades de engenharia de software, o GPT-4.1 obteve 54,6% — uma melhoria substancial de 21,4 pontos percentuais em relação ao GPT-4o.

Para empresas que desenvolvem agentes de IA que trabalham de forma independente em tarefas complexas, as melhorias na execução de instruções são particularmente valiosas. No benchmark MultiChallenge da Scale, o GPT-4.1 obteve 38,3%, superando o GPT-4o em 10,5 pontos percentuais.

Por que a estratégia de modelos em três níveis da OpenAI desafia concorrentes como Google e Anthropic

A introdução de três modelos distintos a diferentes faixas de preço aborda o diversificado mercado de IA. O modelo principal GPT-4.1 destina-se a aplicações empresariais complexas, enquanto as versões mini e nano atendem a casos de uso onde velocidade e eficiência de custo são prioridades.

“Nem todas as tarefas precisam da maior inteligência ou das melhores capacidades,” disse Pokrass à VentureBeat. “O nano será um modelo robusto para casos de uso como autocompletar, classificação, extração de dados ou qualquer outra situação onde a velocidade é a principal preocupação.”

Simultaneamente, a OpenAI anunciou planos para descontinuar o GPT-4.5 Preview — seu maior e mais caro modelo, lançado apenas dois meses atrás — de sua API até 14 de julho. A empresa posicionou o GPT-4.1 como uma substituição mais econômica que oferece “desempenho melhorado ou similar em muitas capacidades chave a um custo e latência muito mais baixos.”

Essa movimentação permite à OpenAI recuperar recursos computacionais enquanto oferece aos desenvolvedores uma alternativa mais eficiente à sua oferta mais cara, que tinha preço de $75 por milhão de tokens de entrada e $150 por milhão de tokens de saída.

Resultados do mundo real: Como Thomson Reuters, Carlyle e Windsurf estão aproveitando o GPT-4.1

Vários clientes empresariais que testaram os modelos antes do lançamento relataram melhorias substanciais em seus domínios específicos.

A Thomson Reuters viu uma melhoria de 17% na precisão da revisão de múltiplos documentos ao usar o GPT-4.1 com seu assistente jurídico de IA, CoCounsel. Essa melhoria é particularmente valiosa para fluxos de trabalho legais complexos que envolvem documentos longos com relações sutis entre cláusulas.

A firm financeira Carlyle relatou 50% de melhoria no desempenho na extração de dados financeiros granulares de documentos densos — uma capacidade crítica para análise de investimentos e tomada de decisões.

Varun Mohan, CEO do provedor de ferramentas de codificação Windsurf (anteriormente Codeium), compartilhou métricas detalhadas de desempenho durante o anúncio.

“Descobrimos que o GPT-4.1 reduz o número de vezes que precisa ler arquivos desnecessários em 40% em comparação com outros modelos líderes e também modifica arquivos desnecessários 70% menos,” disse Mohan. “O modelo também é surpreendentemente menos verboso… o GPT-4.1 é 50% menos verboso do que outros modelos líderes.”

Contexto de um milhão de tokens: O que as empresas podem fazer com 8x mais capacidade de processamento

Todos os três modelos possuem uma janela de contexto de um milhão de tokens — oito vezes maior que o limite de 128.000 tokens do GPT-4o. Essa capacidade expandida permite que os modelos processem vários documentos longos ou bases de código inteiras de uma só vez.

Em uma demonstração, a OpenAI mostrou o GPT-4.1 analisando um arquivo de log de servidor da NASA de 450.000 tokens de 1995, identificando uma entrada anômala escondida no fundo dos dados. Essa capacidade é particularmente valiosa para tarefas envolvendo grandes conjuntos de dados, como repositórios de código ou coleções de documentos corporativos.

No entanto, a OpenAI reconhece a degradação do desempenho com entradas extremamente grandes. Em seu teste interno OpenAI-MRCR, a precisão caiu de cerca de 84% com 8.000 tokens para 50% com um milhão de tokens.

Como o cenário da IA empresarial está mudando à medida que Google, Anthropic e OpenAI competem por desenvolvedores

O lançamento ocorre enquanto a competição no espaço de IA empresarial se intensifica. O Google lançou recentemente o Gemini 2.5 Pro com uma janela de contexto comparável de um milhão de tokens, enquanto o Claude 3.7 Sonnet da Anthropic ganhou tração com empresas que buscam alternativas às ofertas da OpenAI.

A startup chinesa de IA DeepSeek também atualizou recentemente seus modelos, colocando pressão adicional sobre a OpenAI para manter sua posição de liderança.

“Foi realmente legal ver como as melhorias na compreensão de longo contexto se traduziram em melhor desempenho em setores específicos, como análise jurídica e extração de dados financeiros,” disse Pokrass. “Descobrimos que é crucial testar nossos modelos além dos benchmarks acadêmicos e garantir que eles funcionem bem com empresas e desenvolvedores.”

Ao lançar esses modelos especificamente através de sua API em vez do ChatGPT, a OpenAI sinaliza seu compromisso com desenvolvedores e clientes empresariais. A empresa planeja gradualmente incorporar recursos do GPT-4.1 no ChatGPT ao longo do tempo, mas o foco principal continua sendo fornecer ferramentas robustas para empresas que constroem aplicações especializadas.

Para incentivar mais pesquisas em processamento de longo contexto, a OpenAI está lançando dois conjuntos de dados de avaliação: OpenAI-MRCR para testar habilidades de co-referência em múltiplas rodadas e Graphwalks para avaliar raciocínio complexo em documentos longos.

Para os tomadores de decisão nas empresas, a família GPT-4.1 oferece uma abordagem mais prática e econômica para a implementação de IA. À medida que as organizações continuam a integrar IA em suas operações, essas melhorias em confiabilidade, especificidade e eficiência podem acelerar a adoção em setores que ainda ponderam os custos de implementação em relação aos benefícios potenciais.

Enquanto os concorrentes correm atrás de modelos maiores e mais caros, a mudança estratégica da OpenAI com o GPT-4.1 sugere que o futuro da IA pode não pertencer aos modelos mais robustos, mas sim aos mais eficientes. A verdadeira inovação pode não estar nos benchmarks, mas sim em tornar a IA de grau empresarial acessível a mais empresas do que nunca.





    onze + 17 =




    Bolt42