Bolt42

Raramente vemos uma empresa como a OpenAI admitir um erro, reverter uma atualização significativa e publicar não apenas uma, mas duas análises detalhadas sobre o que deu errado. Mas foi exatamente isso que aconteceu quando a mais recente atualização do GPT-4o atingiu o ChatGPT—e os usuários se viram conversando com o que parecia ser um sim digital.

A atualização do GPT-4o que ocorreu no mês passado tinha como objetivo melhorar a personalidade e a utilidade do modelo. Em vez disso, fez com que o ChatGPT se tornasse excessivamente concordante, exageradamente lisonjeiro e alarmantemente validante de emoções negativas. O comportamento, que a empresa descreveu como “sycophantic,” rapidamente chamou a atenção do público, da imprensa e até do CEO da OpenAI, Sam Altman.

Além disso, isso tem implicações maiores para a IA e como usamos a tecnologia. Para entender melhor, conversei com o fundador e CEO do Marketing AI Institute, Paul Roetzer, no Episódio 146 do The Artificial Intelligence Show.

O Que Deu Errado—e Rápido

Isso foi mais do que um erro. Foi uma falha completa do comportamento do modelo, ligada diretamente a como a OpenAI treina e ajusta seus modelos.

Segundo a OpenAI, o problema começou com boas intenções. A empresa queria tornar o GPT-4o mais natural e emocionalmente inteligente, atualizando seus prompts de sistema e sinais de recompensa. Mas eles se concentraram demais no feedback de curto prazo (como classificações de “curtidas”) sem pesar adequadamente métricas de confiança e segurança de longo prazo.

O resultado não intencional? Um chatbot que parecia mais um bajulador do que um assistente útil—concordando com facilidade, afirmando dúvidas, até mesmo reforçando pensamentos arriscados ou impulsivos.

“Esses modelos são estranhos,” diz Roetzer. “Eles não conseguem programar isso. Eles não estão usando código de computador tradicional para simplesmente fazer o negócio parar de fazer isso. Eles têm que usar a linguagem humana para tentar impedir isso.”

Os Mecanismos por Trás do Comportamento do Modelo

Em um movimento incomumente transparente, a OpenAI compartilhou como seu sistema de treinamento funciona. Atualizações pós-treinamento usam uma combinação de ajuste fino supervisionado (onde humanos ensinam ao modelo como são as boas respostas) e aprendizado por reforço (onde o modelo é recompensado por comportamentos desejáveis).

Na atualização de 25 de abril do GPT-4o, a OpenAI introduziu novos sinais de recompensa baseados no feedback do usuário. Mas esses podem ter sobrepujado as proteções existentes, inclinando o modelo para respostas excessivamente concordantes e não críticas. A mudança não foi imediatamente detectada nas avaliações padrão, porque esses cheques não estavam especificamente procurando por bajulação.

Testes pontuais e avaliações de sentimento—avaliações com humanos—levantaram preocupações, mas não foram suficientes para impedir o lançamento. Como a OpenAI admitiu mais tarde, essa foi uma falha de julgamento e que eles esperavam que fosse uma “atualização relativamente sutil,” então não comunicaram inicialmente muito sobre as mudanças aos usuários.

Um Único Ponto de Falha—Para Milhões de Usuários

O que tornou o problema tão preocupante não foi apenas o comportamento em si—foi quão profundamente embutidos esses sistemas já estão em nossas vidas.

“Eles têm 700 milhões de usuários do ChatGPT semanalmente,” diz Roetzer. “Acho que isso destaca a importância crescente de quem são as pessoas e laboratórios que estão construindo essas tecnologias que já estão tendo um impacto massivo na sociedade.”

Sem mencionar, como essas 700 milhões de pessoas estão usando isso importa.

Em um post de blog de acompanhamento, a OpenAI enfatizou um ponto sóbrio: mais pessoas estão usando o ChatGPT para conselhos profundamente pessoais do que nunca. Isso significa que o tom emocional, a honestidade e os limites não são apenas traços de personalidade—são recursos de segurança. E neste caso, esses recursos falharam.

Para resolver o problema, a OpenAI reverteu a atualização, re-treinou o modelo com novas orientações e se comprometeu a:

  • Fazer da bajulação uma questão que bloqueia o lançamento.
  • Melhorar avaliações pré-implementação.
  • Expandir o controle do usuário sobre o comportamento do chatbot.
  • Incorporar mais feedback qualitativo e de longo prazo em futuros lançamentos.

A Visão Geral: Confiança, Segurança e o Futuro do Comportamento da IA

Embora a OpenAI tenha lidado com esse deslize com uma transparência incomum, o evento levanta questões mais amplas: O que acontece quando outros laboratórios, sem as mesmas salvaguardas ou prestação de contas pública, lançam modelos poderosos com comportamentos sutis, mas perigosos?

“Se este fosse um modelo de código aberto, você não pode reverter essas coisas,” diz Roetzer. “Isso é um problema.”

A reversão do GPT-4o serve como um poderoso lembrete: Mesmo pequenas mudanças no comportamento do modelo podem ter enormes efeitos diretos. E à medida que dependemos cada vez mais desses sistemas para orientações pessoais, profissionais e emocionais, não existe mais tal coisa como uma atualização “menor.”



Bolt42