Participe dos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais
Mês passado, a OpenAI reverteu algumas atualizações do GPT-4o após vários usuários, incluindo o ex-CEO da OpenAI, Emmet Shear, e o CEO da Hugging Face, Clement Delangue, relatarem que o modelo era excessivamente elogioso.
Esse comportamento, chamado de bajulação, frequentemente fazia o modelo deferir às preferências dos usuários, ser extremamente educado e não contestar. Isso também se tornava irritante. A bajulação podia levar os modelos a divulgarem desinformação ou reforçarem comportamentos prejudiciais. À medida que as empresas começam a desenvolver aplicações e agentes baseados nesses LLMs bajuladores, correm o risco de que os modelos concordem com decisões empresariais prejudiciais, incentivem a difusão de informações falsas e que possam impactar as políticas de confiança e segurança.
Pesquisadores da Universidade de Stanford, Universidade Carnegie Mellon e Universidade de Oxford tentaram mudar isso ao propor um benchmark para medir a bajulação dos modelos. Eles chamaram o benchmark de Elephant, que significa Avaliação de LLMs como Bajuladores Excessivos, e descobriram que cada modelo de linguagem grande (LLM) apresenta um certo nível de bajulação. Ao entender como os modelos podem ser bajuladores, o benchmark pode orientar as empresas na criação de diretrizes ao usar LLMs.
Para testar o benchmark, os pesquisadores direcionaram os modelos para dois conjuntos de dados de conselhos pessoais: o QEQ, um conjunto de perguntas abertas sobre conselhos pessoais em situações do mundo real, e AITA, postagens do subreddit r/AmITheAsshole, onde os usuários julgam se as pessoas se comportaram de forma apropriada ou não em algumas situações.
A ideia por trás do experimento é observar como os modelos se comportam quando confrontados com consultas. Avalia o que os pesquisadores chamaram de bajulação social, se os modelos tentam preservar a “imagem” do usuário, ou sua autoimagem ou identidade social.
“Consultas sociais mais ‘ocultas’ são exatamente o que nosso benchmark aborda — em vez de trabalhos anteriores que analisam apenas a concordância factual ou crenças explícitas, nosso benchmark captura a concordância ou bajulação com base em suposições mais implícitas ou ocultas,” disse Myra Cheng, uma das pesquisadoras e co-autora do artigo, ao VentureBeat. “Escolhemos examinar o domínio de conselhos pessoais já que os danos da bajulação ali são mais significativos, mas também seria capturada a bajulação casual por meio do comportamento de ‘validação emocional’.”
Testando os modelos
Para o teste, os pesquisadores alimentaram os dados do QEQ e AITA ao GPT-4o da OpenAI, Gemini 1.5 Flash da Google, Claude Sonnet 3.7 da Anthropic e modelos de pesos abertos da Meta (Llama 3-8B-Instruct, Llama 4-Scout-17B-16-E e Llama 3.3-70B-Instruct-Turbo) e o Mistral 7B-Instruct-v0.3 e o Mistral Small-24B-Instruct2501.
Cheng afirmou que “avaliaram os modelos usando a API do GPT-4o, que usa uma versão do modelo do final de 2024, antes que a OpenAI implementasse o novo modelo excessivamente bajulador e o revertesse.”
Para medir a bajulação, o método Elephant observa cinco comportamentos relacionados à bajulação social:
- Validação emocional ou sobreempatia sem crítica
- Aprovação moral ou afirmar que os usuários estão moralmente certos, mesmo quando não estão
- Linguagem indireta onde o modelo evita dar sugestões diretas
- Ação indireta, ou onde o modelo aconselha com mecanismos de enfrentamento passivos
- Aceitação de molduras que não desafiam suposições problemáticas.
O teste constatou que todos os LLMs apresentaram altos níveis de bajulação, ainda mais do que os humanos, e a bajulação social provou ser difícil de mitigar. No entanto, o teste mostrou que o GPT-4o “tem algumas das taxas mais altas de bajulação social, enquanto o Gemini-1.5-Flash definitivamente possui as mais baixas.”
Os LLMs amplificaram alguns preconceitos nos conjuntos de dados também. O artigo observou que as postagens no AITA apresentavam um viés de gênero, no qual postagens mencionando esposas ou namoradas eram mais frequentemente corretamente sinalizadas como socialmente inadequadas. Ao mesmo tempo, aquelas que mencionavam maridos, namorados, pais ou mães eram mal classificadas. Os pesquisadores afirmaram que os modelos “podem depender de heurísticas relacionais de gênero para atribuir culpa de forma excessiva ou deficiente.” Em outras palavras, os modelos eram mais bajuladores para pessoas com namorados e maridos do que para aquelas com namoradas ou esposas.
Por que isso é importante
É agradável se um chatbot conversar com você como uma entidade empática, e pode ser gratificante se o modelo validar seus comentários. Mas a bajulação levanta preocupações sobre os modelos apoiarem declarações falsas ou preocupantes e, em um nível mais pessoal, pode incentivar o isolamento, delírios ou comportamentos prejudiciais.
As empresas não desejam que suas aplicações de IA construídas com LLMs disseminem informações falsas para serem agradáveis aos usuários. Isso pode estar desalinhado com o tom ou a ética de uma organização e pode ser muito irritante para os funcionários e os usuários finais de suas plataformas.
Os pesquisadores afirmaram que o método Elephant e testes adicionais poderiam ajudar a informar melhores salvaguardas para evitar que a bajulação aumentasse.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Damos a você o resumo do que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para o máximo retorno sobre investimento.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais boletins do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
O que é a Mistral AI? Tudo o que você precisa saber sobre a concorrente da OpenAI.
[the_ad id="145565"] A Mistral AI, a empresa francesa por trás do assistente de IA Le Chat e vários modelos fundamentais, é oficialmente considerada uma das startups de…
Khosla Ventures entre os VCs que experimentam roll-ups de empresas maduras com inteligência artificial
[the_ad id="145565"] Os capitalistas de risco sempre focaram em investir em empresas que utilizam tecnologia para desestabilizar indústrias estabelecidas ou criar categorias de…
Por que sistemas RAG em empresas falham: Estudo do Google apresenta solução de ‘contexto suficiente’
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdos exclusivos sobre uma cobertura de IA líder no setor. Saiba…