Bolt42

Na segunda-feira, a OpenAI lançou uma nova família de modelos chamada GPT-4.1. Sim, “4.1” — como se a nomenclatura da empresa já não fosse confusa o suficiente.

Existem o GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, todos os quais, segundo a OpenAI, “se destacam” em programação e em seguir instruções. Disponíveis através da API da OpenAI, mas não no ChatGPT, os modelos multimodais têm uma janela de contexto de 1 milhão de tokens, o que significa que podem absorver cerca de 750.000 palavras de uma só vez (mais longo que “Guerra e Paz”).

O GPT-4.1 chega enquanto concorrentes da OpenAI, como Google e Anthropic, intensificam esforços para desenvolver modelos de programação sofisticados. O Gemini 2.5 Pro, recentemente lançado pelo Google, que também possui uma janela de contexto de 1 milhão de tokens, classifica-se altamente em populares benchmarks de codificação. O mesmo acontece com Claude 3.7 Sonnet da Anthropic e o modelo V3 atualizado da startup chinesa DeepSeek.

O objetivo de muitas gigantes da tecnologia, incluindo a OpenAI, é treinar modelos de IA para codificação capazes de realizar tarefas complexas de engenharia de software. A ambição grandiosa da OpenAI é criar um “engenheiro de software agente”, como disse CFO Sarah Friar durante uma cúpula de tecnologia em Londres no mês passado. A empresa afirma que seus futuros modelos serão capazes de programar aplicativos inteiros de ponta a ponta, lidando com aspectos como garantia de qualidade, testes de bugs e redação de documentação.

O GPT-4.1 é um passo nessa direção.

“Otimizar o GPT-4.1 para uso no mundo real com base no feedback direto melhorou áreas que mais interessam aos desenvolvedores: codificação de frontend, fazendo menos edições desnecessárias, seguindo formatos de maneira confiável, aderindo à estrutura e ordem das respostas, uso consistente de ferramentas e mais,” disse um porta-voz da OpenAI ao TechCrunch por e-mail. “Essas melhorias permitem que os desenvolvedores construam agentes que são significativamente melhores em tarefas de engenharia de software no mundo real.”

A OpenAI afirma que o modelo completo do GPT-4.1 supera seus modelos GPT-4o e GPT-4o mini em benchmarks de codificação, incluindo o SWE-bench. O GPT-4.1 mini e nano são considerados mais eficientes e rápidos, embora à custa de alguma precisão, com a OpenAI afirmando que o GPT-4.1 nano é seu modelo mais rápido — e barato — de todos os tempos.

O GPT-4.1 custa $2 por milhão de tokens de entrada e $8 por milhão de tokens de saída. O GPT-4.1 mini custa $0.40/milhão de tokens de entrada e $1.60/milhão de tokens de saída, enquanto o GPT-4.1 nano custa $0.10/milhão de tokens de entrada e $0.40/milhão de tokens de saída.

De acordo com testes internos da OpenAI, o GPT-4.1, que pode gerar mais tokens de uma vez do que o GPT-4o (32.768 contra 16.384), obteve pontuações entre 52% e 54,6% no SWE-bench Verified, um subconjunto validado por humanos do SWE-bench. (A OpenAI observou em um post no blog que algumas soluções para problemas do SWE-bench Verified não puderam ser executadas em sua infraestrutura, daí a faixa de pontuações.) Esses números estão um pouco abaixo das pontuações relatadas por Google e Anthropic para o Gemini 2.5 Pro (63,8%) e Claude 3.7 Sonnet (62,3%), respectivamente, no mesmo benchmark.

Em uma avaliação separada, a OpenAI testou o GPT-4.1 usando Video-MME, que mede a capacidade de um modelo de “compreender” o conteúdo em vídeos. O GPT-4.1 alcançou uma precisão recorde de 72% na categoria de vídeo “longo, sem legendas”, afirma a OpenAI.

Embora o GPT-4.1 tenha um desempenho razoavelmente bom em benchmarks e possua um “corte de conhecimento” mais recente, oferecendo uma melhor referência para eventos atuais (até junho de 2024), é importante ter em mente que até alguns dos melhores modelos hoje em dia enfrentam dificuldades com tarefas que não dificultariam especialistas. Por exemplo, muitos estudos mostraram que modelos de geração de código muitas vezes falham em corrigir e até introduzir vulnerabilidades e bugs de segurança.

A OpenAI também reconhece que o GPT-4.1 se torna menos confiável (ou seja, mais propenso a cometer erros) quanto mais tokens de entrada ele precisar lidar. Em um dos testes da empresa, o OpenAI-MRCR, a precisão do modelo caiu de cerca de 84% com 8.000 tokens para 50% com 1 milhão de tokens. Além disso, o GPT-4.1 tendia a ser mais “literal” do que o GPT-4o, diz a empresa, o que às vezes exigia prompts mais específicos e explícitos.


    dezenove − dezessete =

    Bolt42