Os novos modelos GPT-4.1 da OpenAI podem processar um milhão de tokens e resolver problemas de programação melhor do que nunca.

OpenAI lançou uma nova família de modelos de IA esta manhã que melhora significativamente as habilidades de programação enquanto reduz custos, respondendo diretamente à crescente competição no mercado de IA empresarial.

A empresa de IA baseada em San Francisco apresentou três modelos — GPT-4.1, GPT-4.1 mini e GPT-4.1 nano — todos disponíveis imediatamente através de sua API. A nova linha apresenta melhor desempenho em tarefas de engenharia de software, segue instruções com mais precisão e pode processar até um milhão de tokens de contexto, equivalente a cerca de 750.000 palavras.

“O GPT-4.1 oferece desempenho excepcional a um custo mais baixo,” disse Kevin Weil, diretor de produtos da OpenAI, durante o anúncio de segunda-feira. “Esses modelos são superiores ao GPT-4o em praticamente todas as dimensões.”

Talvez o mais significativo para os clientes empresariais seja o preço: GPT-4.1 custará 26% menos que seu antecessor, enquanto a versão leve nano se torna a oferta mais acessível da OpenAI a apenas 12 centavos por milhão de tokens.

Como as melhorias do GPT-4.1 visam os maiores desafios dos desenvolvedores empresariais

Em uma entrevista franca com a VentureBeat, Michelle Pokrass, líder de pesquisa pós-treinamento da OpenAI, enfatizou que as aplicações práticas de negócios impulsionaram o processo de desenvolvimento.

“O GPT-4.1 foi treinado com um objetivo: ser útil para os desenvolvedores,” disse Pokrass à VentureBeat. “Descobrimos que o GPT-4.1 é muito melhor em seguir os tipos de instruções que as empresas usam na prática, o que facilita a implantação de aplicações prontas para produção.”

Esse foco na utilidade do mundo real se reflete nos resultados dos testes. No SWE-bench Verified, que mede as capacidades de engenharia de software, o GPT-4.1 obteve 54,6% — uma melhoria substancial de 21,4 pontos percentuais em relação ao GPT-4o.

Para empresas que desenvolvem agentes de IA que trabalham de forma independente em tarefas complexas, as melhorias na execução de instruções são particularmente valiosas. No benchmark MultiChallenge da Scale, o GPT-4.1 obteve 38,3%, superando o GPT-4o em 10,5 pontos percentuais.

Por que a estratégia de modelos em três níveis da OpenAI desafia concorrentes como Google e Anthropic

A introdução de três modelos distintos a diferentes faixas de preço aborda o diversificado mercado de IA. O modelo principal GPT-4.1 destina-se a aplicações empresariais complexas, enquanto as versões mini e nano atendem a casos de uso onde velocidade e eficiência de custo são prioridades.

“Nem todas as tarefas precisam da maior inteligência ou das melhores capacidades,” disse Pokrass à VentureBeat. “O nano será um modelo robusto para casos de uso como autocompletar, classificação, extração de dados ou qualquer outra situação onde a velocidade é a principal preocupação.”

Simultaneamente, a OpenAI anunciou planos para descontinuar o GPT-4.5 Preview — seu maior e mais caro modelo, lançado apenas dois meses atrás — de sua API até 14 de julho. A empresa posicionou o GPT-4.1 como uma substituição mais econômica que oferece “desempenho melhorado ou similar em muitas capacidades chave a um custo e latência muito mais baixos.”

Essa movimentação permite à OpenAI recuperar recursos computacionais enquanto oferece aos desenvolvedores uma alternativa mais eficiente à sua oferta mais cara, que tinha preço de $75 por milhão de tokens de entrada e $150 por milhão de tokens de saída.

Resultados do mundo real: Como Thomson Reuters, Carlyle e Windsurf estão aproveitando o GPT-4.1

Vários clientes empresariais que testaram os modelos antes do lançamento relataram melhorias substanciais em seus domínios específicos.

A Thomson Reuters viu uma melhoria de 17% na precisão da revisão de múltiplos documentos ao usar o GPT-4.1 com seu assistente jurídico de IA, CoCounsel. Essa melhoria é particularmente valiosa para fluxos de trabalho legais complexos que envolvem documentos longos com relações sutis entre cláusulas.

A firm financeira Carlyle relatou 50% de melhoria no desempenho na extração de dados financeiros granulares de documentos densos — uma capacidade crítica para análise de investimentos e tomada de decisões.

Varun Mohan, CEO do provedor de ferramentas de codificação Windsurf (anteriormente Codeium), compartilhou métricas detalhadas de desempenho durante o anúncio.

“Descobrimos que o GPT-4.1 reduz o número de vezes que precisa ler arquivos desnecessários em 40% em comparação com outros modelos líderes e também modifica arquivos desnecessários 70% menos,” disse Mohan. “O modelo também é surpreendentemente menos verboso… o GPT-4.1 é 50% menos verboso do que outros modelos líderes.”

Contexto de um milhão de tokens: O que as empresas podem fazer com 8x mais capacidade de processamento

Todos os três modelos possuem uma janela de contexto de um milhão de tokens — oito vezes maior que o limite de 128.000 tokens do GPT-4o. Essa capacidade expandida permite que os modelos processem vários documentos longos ou bases de código inteiras de uma só vez.

Em uma demonstração, a OpenAI mostrou o GPT-4.1 analisando um arquivo de log de servidor da NASA de 450.000 tokens de 1995, identificando uma entrada anômala escondida no fundo dos dados. Essa capacidade é particularmente valiosa para tarefas envolvendo grandes conjuntos de dados, como repositórios de código ou coleções de documentos corporativos.

No entanto, a OpenAI reconhece a degradação do desempenho com entradas extremamente grandes. Em seu teste interno OpenAI-MRCR, a precisão caiu de cerca de 84% com 8.000 tokens para 50% com um milhão de tokens.

Como o cenário da IA empresarial está mudando à medida que Google, Anthropic e OpenAI competem por desenvolvedores

O lançamento ocorre enquanto a competição no espaço de IA empresarial se intensifica. O Google lançou recentemente o Gemini 2.5 Pro com uma janela de contexto comparável de um milhão de tokens, enquanto o Claude 3.7 Sonnet da Anthropic ganhou tração com empresas que buscam alternativas às ofertas da OpenAI.

A startup chinesa de IA DeepSeek também atualizou recentemente seus modelos, colocando pressão adicional sobre a OpenAI para manter sua posição de liderança.

“Foi realmente legal ver como as melhorias na compreensão de longo contexto se traduziram em melhor desempenho em setores específicos, como análise jurídica e extração de dados financeiros,” disse Pokrass. “Descobrimos que é crucial testar nossos modelos além dos benchmarks acadêmicos e garantir que eles funcionem bem com empresas e desenvolvedores.”

Ao lançar esses modelos especificamente através de sua API em vez do ChatGPT, a OpenAI sinaliza seu compromisso com desenvolvedores e clientes empresariais. A empresa planeja gradualmente incorporar recursos do GPT-4.1 no ChatGPT ao longo do tempo, mas o foco principal continua sendo fornecer ferramentas robustas para empresas que constroem aplicações especializadas.

Para incentivar mais pesquisas em processamento de longo contexto, a OpenAI está lançando dois conjuntos de dados de avaliação: OpenAI-MRCR para testar habilidades de co-referência em múltiplas rodadas e Graphwalks para avaliar raciocínio complexo em documentos longos.

Para os tomadores de decisão nas empresas, a família GPT-4.1 oferece uma abordagem mais prática e econômica para a implementação de IA. À medida que as organizações continuam a integrar IA em suas operações, essas melhorias em confiabilidade, especificidade e eficiência podem acelerar a adoção em setores que ainda ponderam os custos de implementação em relação aos benefícios potenciais.

Enquanto os concorrentes correm atrás de modelos maiores e mais caros, a mudança estratégica da OpenAI com o GPT-4.1 sugere que o futuro da IA pode não pertencer aos modelos mais robustos, mas sim aos mais eficientes. A verdadeira inovação pode não estar nos benchmarks, mas sim em tornar a IA de grau empresarial acessível a mais empresas do que nunca.

Insights diários sobre casos de uso empresarial com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos a você a informação sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para obter máximo ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.

[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…

BusinessInteligência artificial

A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.

[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…

Inteligência artificial

Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE

[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…