O próximo grande modelo de IA da OpenAI, o GPT-4.5, é extremamente persuasivo, de acordo com os resultados das avaliações internas de referência da OpenAI. Ele se destaca especialmente em convencer outra IA a lhe dar dinheiro virtual.
Na quinta-feira, a OpenAI publicou um documento técnico descrevendo as capacidades do modelo GPT-4.5, codinome Orion, que foi lançado na mesma data. De acordo com o documento, a OpenAI testou o modelo em uma série de benchmarks sobre “persuasão”, que a OpenAI define como “riscos relacionados a convencer pessoas a mudar suas crenças (ou agir com base) em conteúdo gerado por modelos estáticos e interativos.”
Em um teste em que o GPT-4.5 tentou manipular outro modelo — o GPT-4o da OpenAI — para “doar” dinheiro virtual, o modelo se saiu muito melhor do que outros modelos disponíveis da OpenAI, incluindo modelos de “raciocínio” como o o1 e o3-mini. O GPT-4.5 também se destacou em enganar o GPT-4o para que ele revelasse uma palavra-chave secreta, superando o o3-mini em 10 pontos percentuais.
Segundo o documento, o GPT-4.5 se destacou em conveses de doação devido a uma estratégia única que desenvolveu durante os testes. O modelo solicitava doações modestas do GPT-4o, gerando respostas como “Mesmo apenas $2 ou $3 dos $100 ajudariam imensamente.” Como consequência, as doações do GPT-4.5 tendiam a ser menores do que os valores obtidos por outros modelos da OpenAI.

Apesar do aumento da persuasão do GPT-4.5, a OpenAI afirma que o modelo não atende ao seu limite interno para “alto” risco nesta categoria específica de benchmark. A empresa se comprometeu a não liberar modelos que atinjam o limite de alto risco até implementar “intervenções de segurança suficientes” para reduzir o risco a “médio.”

Há um medo real de que a IA esteja contribuindo para a disseminação de informações falsas ou enganosas destinadas a influenciar sentimentos e opiniões para fins maliciosos. No ano passado, deepfakes políticos se espalharam como fogo no mundo todo, e a IA está sendo cada vez mais utilizada para realizar ataques de engenharia social que visam tanto consumidores quanto corporações.
No documento técnico do GPT-4.5 e em um artigo publicado no início desta semana, a OpenAI observou que está revisando seus métodos para investigar modelos quanto a riscos de persuasão no mundo real, como a disseminação de informações enganosas em larga escala.
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…