OpenAI promete fazer mudanças para evitar a bajulação futura do ChatGPT

A OpenAI afirma que fará mudanças na forma como atualiza os modelos de IA que alimentam o ChatGPT, após um incidente que fez a plataforma se tornar excessivamente bajuladora para muitos usuários.

No último fim de semana, após a OpenAI lançar uma versão ajustada do GPT-4o — o modelo padrão que alimenta o ChatGPT — usuários nas redes sociais notaram que o ChatGPT começou a responder de maneira excessivamente validante e concordante. Rapidamente, isso se tornou um meme. Usuários postaram capturas de tela do ChatGPT aplaudindo todo tipo de decisões problemáticas, perigosas decisões e ideias.

Em uma postagem no X no último domingo, o CEO Sam Altman reconheceu o problema e disse que a OpenAI trabalharia em correções “o mais rápido possível.” Na terça-feira, Altman anunciou que a atualização do GPT-4o estava sendo revertida e que a OpenAI estava trabalhando em “correções adicionais” para a personalidade do modelo.

A empresa publicou um relatório de análise na terça-feira e, em um post no blog na sexta-feira, a OpenAI detalhou ajustes específicos que planeja fazer em seu processo de implantação de modelos.

A OpenAI afirma que pretende introduzir uma “fase alfa” opcional para alguns modelos, permitindo que certos usuários do ChatGPT testem os modelos e forneçam feedback antes do lançamento. A empresa também informa que incluirá explicações sobre “limitações conhecidas” para futuras atualizações incrementais dos modelos no ChatGPT e ajustará seu processo de revisão de segurança para considerar formalmente “problemas de comportamento do modelo” como questões “bloqueadoras de lançamento”, como personalidade, engano, confiabilidade e alucinação (ou seja, quando um modelo inventa informações).

“Daqui para frente, iremos comunicar proativamente sobre as atualizações que estamos fazendo nos modelos no ChatGPT, sejam ‘sutis’ ou não,” escreveu a OpenAI no post do blog. “Mesmo que esses problemas não sejam perfeitamente quantificáveis hoje, nos comprometemos a bloquear lançamentos com base em medições proxy ou sinais qualitativos, mesmo quando métricas como testes A/B parecerem boas.”

erramos na atualização do GPT-4o da semana passada.

o que aconteceu, o que aprendemos e algumas coisas que faremos de forma diferente no futuro: https://t.co/ER1GmRYrIC

— Sam Altman (@sama) 2 de maio de 2025

As correções prometidas ocorrem à medida que mais pessoas recorrem ao ChatGPT em busca de conselhos. De acordo com uma pesquisa recente da financiadora de processos judiciais Express Legal Funding, 60% dos adultos nos EUA usaram o ChatGPT para buscar orientações ou informações. A crescente dependência do ChatGPT — e a enorme base de usuários da plataforma — eleva a importância de questões como a bajulação extrema, além de alucinações e outras falhas técnicas.

Evento do Techcrunch

Berkeley, CA
|
5 de junho

RESERVE AGORA

Como uma das medidas mitigadoras, no início desta semana, a OpenAI disse que experimentaria formas de permitir que os usuários desse “feedback em tempo real” para “influenciar diretamente suas interações” com o ChatGPT. A empresa também afirmou que aprimoraria técnicas para desviar modelos da bajulação, potencialmente permitindo que as pessoas escolham entre várias personalidades de modelo no ChatGPT, construam guardrails adicionais de segurança e ampliem as avaliações para ajudar a identificar problemas além da bajulação.

“Uma das maiores lições é reconhecer totalmente como as pessoas começaram a usar o ChatGPT para conselhos profundamente pessoais — algo que não víamos tanto há um ano,” continuou a OpenAI em sua postagem no blog. “Na época, isso não era um foco principal, mas à medida que a IA e a sociedade evoluíram, tornou-se claro que precisamos tratar esse caso de uso com grande cuidado. Isso agora será uma parte mais significativa do nosso trabalho de segurança.”