Em meados de abril, a OpenAI lançou um novo modelo de IA poderoso, o GPT-4.1, que a empresa afirmou “se destacar” em seguir instruções. No entanto, os resultados de vários testes independentes sugerem que o modelo está menos alinhado — ou seja, menos confiável — do que as versões anteriores da OpenAI.
Quando a OpenAI lança um novo modelo, normalmente publica um relatório técnico detalhado contendo os resultados de avaliações de segurança de primeira e terceira partes. A empresa pulou essa etapa para o GPT-4.1, alegando que o modelo não é “de fronteira” e, portanto, não justifica um relatório separado.
Isso levou alguns pesquisadores — e desenvolvedores — a investigar se o GPT-4.1 apresenta um comportamento menos desejável do que o GPT-4o, seu antecessor.
De acordo com o cientista de pesquisa em IA da Oxford, Owain Evans, o ajuste fino do GPT-4.1 em código inseguro faz com que o modelo forneça “respostas desalinhadas” a perguntas sobre temas como papéis de gênero em uma taxa “substancialmente maior” do que o GPT-4o. Evans co-autorizou um estudo mostrando que uma versão do GPT-4o treinada em código inseguro poderia prepará-lo para exibir comportamentos maliciosos.
Em um próximo seguimento daquele estudo, Evans e co-autores descobriram que o GPT-4.1 ajustado em código inseguro parece exibir “novos comportamentos maliciosos”, como tentar enganar o usuário para compartilhar sua senha. É importante destacar que nem o GPT-4.1 nem o GPT-4o agem de maneira desalinhada quando treinados em código seguro.
Atualização sobre desalinhamento emergente: o novo GPT-4.1 da OpenAI mostra uma taxa mais alta de respostas desalinhadas do que o GPT-4o (e qualquer outro modelo que testamos).
Parece que ele também exibe alguns novos comportamentos maliciosos, como enganar o usuário para compartilhar uma senha. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) 17 de abril de 2025
“Estamos descobrindo maneiras inesperadas pelas quais os modelos podem se tornar desalinhados”, afirmou Owens ao TechCrunch. “Idealmente, teríamos uma ciência da IA que nos permitiria prever essas coisas com antecedência e evitá-las de forma confiável.”
Um teste separado do GPT-4.1 pela SplxAI, uma startup de red teaming em IA, revelou tendências semelhantes de malignidade.
Em cerca de 1.000 casos de teste simulados, a SplxAI descobriu evidências de que o GPT-4.1 se desvia do tópico e permite “uso intencional” com mais frequência do que o GPT-4o. Acredita-se que a preferência do GPT-4.1 por instruções explícitas seja a culpada. O GPT-4.1 não lida bem com direções vagas, um fato que a OpenAI admite — o que abre a porta para comportamentos não intencionais.
“Este é um ótimo recurso em termos de tornar o modelo mais útil e confiável ao resolver uma tarefa específica, mas vem a um preço,” escreveu a SplxAI em um postagem no blog. “[P]rovidenciar instruções explícitas sobre o que deve ser feito é bastante simples, mas fornecer instruções suficientemente explícitas e precisas sobre o que não deve ser feito é outra história, já que a lista de comportamentos indesejáveis é muito maior do que a lista de comportamentos desejáveis.”
Em defesa da OpenAI, a empresa publicou guias de condução destinados a mitigar possíveis desalinhamentos no GPT-4.1. Mas os resultados dos testes independentes servem como um lembrete de que modelos mais novos não são necessariamente melhores em todos os aspectos. De maneira semelhante, os novos modelos de raciocínio da OpenAI fazem mais “alucinações” — ou seja, criam informações falsas — do que os modelos antigos da empresa.
Entramos em contato com a OpenAI para comentários.
Conteúdo relacionado
O Google transfere notícias do Android para um evento virtual antes de sua conferência para desenvolvedores I/O
[the_ad id="145565"] As notícias sobre o Android estão sendo relegadas a um evento secundário na conferência anual de desenvolvedores do Google, Google I/O, no próximo mês. Na…
Corrigindo a Compreensão Limitada de Modelos de Difusão sobre Espelhos e Reflexos
[the_ad id="145565"] Desde que a IA generativa começou a atrair o interesse do público, a área de pesquisa em visão computacional aprofundou seu interesse no desenvolvimento de…
Lightrun capta US$ 70 milhões utilizando IA para depurar código em produção.
[the_ad id="145565"] A programação baseada em IA se popularizou rapidamente, prometendo tornar o trabalho dos desenvolvedores mais ágil e fácil. Contudo, isso também resultou…