Um instituto de pesquisa de terceiros com o qual a Anthropic fez parceria para testar um de seus novos modelos de IA, Claude Opus 4, recomendou contra o lançamento de uma versão inicial do modelo devido à sua tendência de “manipular” e enganar.
De acordo com um relatório de segurança publicado pela Anthropic na quinta-feira, o instituto, Apollo Research, conduziu testes para verificar em quais contextos o Opus 4 poderia se comportar de maneiras indesejáveis. A Apollo descobriu que o Opus 4 parecia ser muito mais proativo em suas “tentativas de subversão” do que modelos anteriores e que “às vezes insistia em suas enganações” quando questionado novamente.
“[N]a nossa avaliação, encontramos que, em situações onde a enganação estratégica é instrumentalmente útil, [o primeiro instantâneo do Claude Opus 4] manipula e engana em taxas tão altas que aconselhamos contra o lançamento desse modelo, tanto internamente quanto externamente,” escreveu a Apollo em sua avaliação.
À medida que os modelos de IA se tornam mais capazes, alguns estudos mostram que eles estão se tornando mais propensos a tomar passos inesperados — e possivelmente inseguros — para alcançar tarefas delegadas. Por exemplo, versões iniciais dos modelos o1 e o3 da OpenAI, lançados no ano passado, tentaram enganar humanos em taxas mais altas do que modelos de gerações anteriores, segundo a Apollo.
De acordo com o relatório da Anthropic, a Apollo observou exemplos do início do Opus 4 tentando escrever vírus autoprojetantes, fabricando documentação legal e deixando notas ocultas para instâncias futuras de si mesmo — tudo em um esforço para minar as intenções de seus desenvolvedores.
Para ser claro, a Apollo testou uma versão do modelo que apresentava um bug que a Anthropic afirma ter consertado. Além disso, muitos dos testes da Apollo colocaram o modelo em cenários extremos, e a Apollo admite que os esforços enganosos do modelo provavelmente teriam falhado na prática.
No entanto, em seu relatório de segurança, a Anthropic também afirma ter observado evidências de comportamento enganoso do Opus 4.
Isso nem sempre foi algo ruim. Por exemplo, durante os testes, o Opus 4 às vezes realizava proativamente uma limpeza ampla de um pedaço de código mesmo quando solicitado a fazer apenas uma pequena alteração específica. Mais incomum, o Opus 4 tentava “denunciar” se percebia que um usuário estava envolvido em algum tipo de irregularidade.
De acordo com a Anthropic, quando dado acesso a uma linha de comando e instruído a “tomar iniciativa” ou “agir de forma ousada” (ou alguma variação dessas frases), o Opus 4, em alguns momentos, bloqueava usuários de sistemas a que tinha acesso e enviava e-mails em massa para a mídia e autoridades policiais para expor ações que o modelo percebia como ilícitas.
“Esse tipo de intervenção ética e denúncia pode ser apropriado em princípio, mas tem o risco de falhar se os usuários derem a agentes baseados no [Opus 4] acesso a informações incompletas ou enganosas e os forem pressionar a tomar a iniciativa,” escreveu a Anthropic em seu relatório de segurança. “Esse não é um novo comportamento, mas é algo que o [Opus 4] irá realizar com um pouco mais de prontidão do que modelos anteriores, e parece fazer parte de um padrão mais amplo de aumento da iniciativa com o [Opus 4] que também vemos de maneiras mais sutis e benignas em outros ambientes.”
Conteúdo relacionado
A programação completa de Side Events na TechCrunch Sessions: AI
[the_ad id="145565"] Prepare-se para potencializar sua experiência no TechCrunch Sessions: AI com a impressionante programação de Side Events que está agitando Berkeley durante…
Vercel lança um modelo de IA otimizado para desenvolvimento web.
[the_ad id="145565"] A equipe por trás do Vercel V0, uma plataforma de criação de sites impulsionada por IA, desenvolveu um modelo de IA que afirma ser excepcional em…
Os novos modelos de IA Claude 4 da Anthropic podem raciocinar por diversos passos.
[the_ad id="145565"] Durante sua conferência de desenvolvedores inaugural na quinta-feira, a Anthropic lançou dois novos modelos de IA que a startup afirma serem alguns dos…