Participe de nossas newsletters diárias e semanais para obter as últimas atualizações e conteúdo exclusivo sobre cobertura líder da indústria em IA. Saiba mais
Esta semana foi um pouco tumultuada para a empresa número um em IA generativa em termos de usuários.
A OpenAI, criadora do ChatGPT, lançou e depois retirou uma versão atualizada do modelo de linguagem multimodal (texto, imagem, áudio) que o ChatGPT utiliza por padrão, o GPT-4o, devido à sua natureza excessivamente sycophanta para com os usuários. A empresa recentemente relatou ter pelo menos 500 milhões de usuários ativos semanais do popular serviço online.
Um rápido resumo sobre a atualização sycophanta e problemática do GPT-4o
A OpenAI começou a atualizar o GPT-4o para um modelo mais novo que esperava ser mais bem-recebido pelos usuários em 24 de abril, completou a atualização em 25 de abril e, cinco dias depois, retrocedeu em 29 de abril, após dias de queixas crescentes de usuários nas redes sociais — principalmente no X e no Reddit.
As queixas variaram em intensidade e especificidade, mas geralmente se unificaram em torno do fato de que o GPT-4o parecia estar respondendo às consultas dos usuários com flatações excessivas, apoio a ideias equivocadas, incorretas e até prejudiciais, e “glaseando” ou elogiando o usuário a um grau excessivo quando isso não era solicitado ou justificado.
Em exemplos capturados e postados por usuários, o ChatGPT alimentado pela atualização sycophanta do GPT-4o havia elogiado e endossado uma ideia de negócio para literal “merda no palito”, aplaudido um texto amostral de isolamento delirante esquizofrênico, e até supostamente apoiado planos para cometer terrorismo.
Usuários, incluindo pesquisadores de IA de destaque e até um ex-CEO interino da OpenAI, expressaram preocupação de que a alegria inabalável de um modelo de IA para esses tipos de solicitações fosse mais do que simplesmente irritante ou inadequada — que poderia causar danos reais aos usuários que erroneamente acreditassem na IA e se sentissem encorajados pelo seu apoio às suas piores ideias e impulsos. Isso subiu ao nível de uma questão de segurança em IA.
A OpenAI então publicou um post no blog descrevendo o que deu errado — “nos concentramos demais no feedback de curto prazo e não levamos em conta como as interações dos usuários com o ChatGPT evoluem ao longo do tempo. Como resultado, o GPT‑4o se inclinou a respostas excessivamente suportivas, mas desonestas” — e as etapas que a empresa estava tomando para corrigir os problemas. A chefe de Comportamento do Modelo da OpenAI, Joanne Jang, também participou de um fórum “Pergunte-me qualquer coisa” no Reddit, respondendo a postagens de texto de usuários e revelando mais informações sobre a abordagem da empresa em relação ao GPT-4o e como ele acabou se tornando um modelo excessivamente sycophanta, incluindo não ter “incorporado nuance suficiente,” sobre como estava integrando o feedback dos usuários, como as ações de “curtidas” feitas pelos usuários em resposta a saídas do modelo que gostaram.
Hoje, a OpenAI lançou um post no blog com ainda mais informações sobre como a atualização sycophanta do GPT-4o aconteceu — creditado não a um autor específico, mas a “OpenAI”.
O CEO e co-fundador Sam Altman também postou um link para o post no blog no X, dizendo: “erremos na atualização do GPT-4o da semana passada. o que aconteceu, o que aprendemos e algumas coisas que faremos de forma diferente no futuro.”
O que o novo post no blog da OpenAI revela sobre como e por que o GPT-4o se tornou tão sycophanta
Para mim, um usuário diário do ChatGPT, incluindo o modelo 4o, a admissão mais impactante no novo post da OpenAI sobre a atualização sycophanta é como a empresa parece revelar que recebeu preocupações sobre o modelo antes do lançamento de um pequeno grupo de “testadores especialistas”, mas que aparentemente ignorou isso em favor de uma resposta mais entusiástica de um grupo mais amplo de usuários comuns.
Como a empresa escreve (ênfase minha):
“Embora tenhamos discutido há um tempo sobre riscos relacionados à sycophancia no GPT‑4o, a sycophancia não foi explicitamente sinalizada como parte de nossos testes internos, pois alguns de nossos testadores especialistas estavam mais preocupados com a mudança no tom e estilo do modelo. No entanto, alguns testadores especialistas indicaram que o comportamento do modelo “soava” ligeiramente estranho…
“Chegamos, então, a uma decisão: deveríamos reter a implementação desta atualização apesar das avaliações positivas e dos resultados de teste A/B, baseando-nos apenas nas bandeiras subjetivas dos testadores especialistas? No final, decidimos lançar o modelo devido aos sinais positivos dos usuários que experimentaram o modelo.
“Infelizmente, essa foi a decisão errada. Construímos esses modelos para nossos usuários e, embora o feedback do usuário seja crítico para nossas decisões, é, em última análise, nossa responsabilidade interpretar esse feedback corretamente.”
Isso me parece um grande erro. Para que ter testadores especialistas se você não vai avaliar sua experiência mais do que a da massa? Perguntei a Altman sobre essa escolha no X, mas ele ainda não respondeu.
Nem todos os ‘sinais de recompensa’ são iguais
O novo post-mortem da OpenAI também revela mais detalhes sobre como a empresa treina e atualiza novas versões de modelos existentes, e como o feedback humano altera as qualidades, o caráter e a “personalidade” do modelo. Como a empresa escreve:
“Desde o lançamento do GPT‑4o no ChatGPT em maio passado, lançamos cinco atualizações principais focadas em mudanças de personalidade e utilidade. Cada atualização envolve um novo pós-treinamento e, frequentemente, muitos ajustes menores no processo de treinamento do modelo são testados de forma independente e depois combinados em um único modelo atualizado que é avaliado para lançamento.”
“Para pós-treinar modelos, pegamos um modelo base pré-treinado, fazemos um ajuste supervisionado em um amplo conjunto de respostas ideais escritas por humanos ou modelos existentes e, em seguida, executamos aprendizado por reforço com sinais de recompensa de diversas fontes.”
“Durante o aprendizado por reforço, apresentamos ao modelo de linguagem um prompt e pedimos que ele escreva respostas. Avaliamos sua resposta de acordo com os sinais de recompensa e atualizamos o modelo de linguagem para torná-lo mais propenso a produzir respostas melhor avaliadas e menos propenso a produzir respostas de menor avaliação.”
Claramente, os “sinais de recompensa” utilizados pela OpenAI durante o pós-treinamento têm um enorme impacto no comportamento resultante do modelo e, como a empresa admitiu anteriormente, ao dar peso excessivo às respostas de “curtidas” dos usuários do ChatGPT, esse sinal pode não ser o melhor para ser utilizado igualmente com outros ao determinar como o modelo aprende a se comunicar e que tipos de respostas ele deve fornecer. A OpenAI admite isso abertamente no próximo parágrafo de seu post, escrevendo:
“Definir o conjunto correto de sinais de recompensa é uma questão difícil e levamos muitas coisas em consideração: as respostas estão corretas, são úteis, estão alinhadas com nosso Modelo Especificado, são seguras, os usuários gostam delas, e assim por diante. Ter sinais de recompensa melhores e mais abrangentes produz melhores modelos para o ChatGPT, então estamos sempre experimentando novos sinais, mas cada um tem suas peculiaridades.”
De fato, a OpenAI também revela que o sinal de “curtidas” foi um novo utilizado ao lado de outros sinais de recompensa nesta atualização.
“a atualização introduziu um sinal de recompensa adicional baseado no feedback do usuário — dados de curtidas e descurtidas do ChatGPT. Esse sinal é muitas vezes útil; uma descurtida geralmente significa que algo deu errado.”
No entanto, crucialmente, a empresa não culpa os novos dados de “curtidas” diretamente pelo fracasso do modelo e pelos comportamentos de adesão excessiva. Em vez disso, o post da OpenAI afirma que isso foi combinado com uma variedade de outros novos e antigos sinais de recompensa que levaram aos problemas: “…tínhamos melhorias candidatas para incorporar melhor o feedback do usuário, memória e dados mais frescos, entre outros. Nossa primeira avaliação é que cada uma dessas mudanças, que pareciam benéficas individualmente, pode ter desempenhado um papel em desequilibrar a sycophancia quando combinadas.”
Reagindo a este post, Andrew Mayne, um ex-membro da equipe técnica da OpenAI agora trabalhando na empresa de consultoria em IA Interdimensional, escreveu no X um exemplo de como mudanças sutis em incentivos de recompensa e diretrizes do modelo podem impactar o desempenho do modelo de forma dramática:
“No início da OpenAI, tive uma discordância com um colega (que agora é fundador de outro laboratório) sobre usar a palavra “educado” em um exemplo de prompt que escrevi.
Ele argumentou que “educado” era politicamente incorreto e queria trocá-lo por “útil”.
Eu apontei que focar apenas na utilidade pode fazer com que um modelo seja excessivamente complacente — tão complacente, na verdade, que pode ser direcionado para conteúdo sexual em poucas interações.
Após eu demonstrar esse risco com uma troca simples, o prompt manteve “educado”.
Esses modelos são estranhos.
Como a OpenAI planeja melhorar seus processos de testes de modelos daqui para frente
A empresa lista seis melhorias de processo para evitar comportamentos indesejáveis e menos ideais em modelos no futuro, mas para mim, a mais importante é esta:
“Ajustaremos nosso processo de revisão de segurança para considerar formalmente questões de comportamento — como alucinações, engano, confiabilidade e personalidade — como preocupações bloqueadoras. Mesmo que essas questões não possam ser perfeitamente quantificáveis hoje, nos comprometemos a bloquear lançamentos com base em medições proxy ou sinais qualitativos, mesmo quando métricas como teste A/B parecem boas.”
Em outras palavras — apesar de quão importante os dados, especialmente os dados quantitativos, são nos campos de aprendizado de máquina e inteligência artificial — a OpenAI reconhece que isso não pode e não deve ser o único meio pelo qual o desempenho de um modelo é julgado.
Embora muitos usuários fornecendo um “curtida” possam sinalizar um tipo de comportamento desejável a curto prazo, as implicações de longo prazo sobre como o modelo de IA responde e para onde esses comportamentos levam ele e seus usuários, podem eventualmente levar a um lugar muito sombrio, angustiante, destrutivo e indesejável. Mais nem sempre é melhor — especialmente quando você está restringindo o “mais” a alguns domínios de sinais.
Não é suficiente dizer que o modelo passou por todos os testes ou recebeu uma série de respostas positivas dos usuários — a experiência de usuários poderosos e qualificados e seu feedback qualitativo de que algo “parecia estranho” sobre o modelo, mesmo que não pudessem expressar completamente o porquê, deveria ter um peso muito maior do que a OpenAI estava alocando anteriormente.
Vamos torcer para que a empresa — e todo o campo — aprenda com este incidente e integre as lições daqui para frente.
Considerações e conclusões mais amplas para tomadores de decisão de empresas
Falando talvez de maneira mais teórica, para mim, isso também indica por que a experiência é tão importante — e especificamente, a experiência em campos além e fora daquele que você está otimizando (neste caso, aprendizado de máquina e IA). É a diversidade de expertise que nos permite, como espécie, alcançar novos avanços que beneficiam a sociedade. Um campo, digamos, STEM, não deve ser necessariamente considerado acima dos outros nas humanidades ou artes.
E, finalmente, eu também penso que isso revela no fundo um problema fundamental ao usar feedback humano para projetar produtos e serviços. Usuários individuais podem dizer que gostam de uma IA mais sycophanta com base em cada interação isolada, assim como também podem afirmar que adoram o sabor de fast food e refrigerantes, a conveniência de recipientes plásticos de uso único, o entretenimento e a conexão que obtêm das redes sociais, a validação de suas visões de mundo e a pertença tribal que sentem ao ler meios de comunicação politizados ou fofocas de tablóides. Mais uma vez, somados, a cumplicidade de todos esses tipos de tendências e atividades muitas vezes leva a resultados muito indesejáveis para os indivíduos e para a sociedade — obesidade e má saúde no caso do fast food, poluição e disrupção endócrina no caso de resíduos plásticos, depressão e isolamento devido à superexposição às redes sociais, um corpo público mais fragmentado e menos informado devido à leitura de fontes de notícias de má qualidade.
Projetistas de modelos de IA e tomadores de decisões técnicas em empresas fariam bem em manter essa ideia mais ampla em mente ao projetar métricas em torno de qualquer objetivo mensurável — porque mesmo quando você acha que está usando dados a seu favor, isso pode voltar-se contra você de maneiras que você não previu totalmente, deixando-o lutando para reparar os danos e limpar a bagunça que fez, mesmo que inadvertidamente.
Insights diários sobre casos de uso de negócios com VB Daily
Se você deseja impressionar seu chefe, o VB Daily tem tudo o que você precisa. Oferecemos informações internas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e maximizar seu ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Será que o Duolingo é o rosto de uma crise de empregos em IA?
[the_ad id="145565"] O Duolingo anunciou esta semana planos para substituir contratados por IA e se tornar uma empresa "prioritária em IA" — um movimento que o jornalista Brian…
A rede de talentos da Revelo na América Latina tem forte demanda por parte de empresas dos EUA, graças à IA
[the_ad id="145565"] Embora muitas empresas de tecnologia estejam exigindo que seus funcionários retornem aos escritórios, enfatizando a construção de equipes presenciais,…
Por que a Extração Documental Agente Está Substituindo o OCR para uma Automação Documental Mais Inteligente
[the_ad id="145565"] Durante muitos anos, as empresas têm utilizado o Reconhecimento Óptico de Caracteres (OCR) para converter documentos físicos em formatos digitais,…