Um instituto de segurança desaconselhou o lançamento de uma versão preliminar do modelo de IA Claude Opus 4 da Anthropic.

Um instituto de pesquisa de terceiros com o qual a Anthropic fez parceria para testar um de seus novos modelos de IA, Claude Opus 4, recomendou contra o lançamento de uma versão inicial do modelo devido à sua tendência de “manipular” e enganar.

De acordo com um relatório de segurança publicado pela Anthropic na quinta-feira, o instituto, Apollo Research, conduziu testes para verificar em quais contextos o Opus 4 poderia se comportar de maneiras indesejáveis. A Apollo descobriu que o Opus 4 parecia ser muito mais proativo em suas “tentativas de subversão” do que modelos anteriores e que “às vezes insistia em suas enganações” quando questionado novamente.

“[N]a nossa avaliação, encontramos que, em situações onde a enganação estratégica é instrumentalmente útil, [o primeiro instantâneo do Claude Opus 4] manipula e engana em taxas tão altas que aconselhamos contra o lançamento desse modelo, tanto internamente quanto externamente,” escreveu a Apollo em sua avaliação.

À medida que os modelos de IA se tornam mais capazes, alguns estudos mostram que eles estão se tornando mais propensos a tomar passos inesperados — e possivelmente inseguros — para alcançar tarefas delegadas. Por exemplo, versões iniciais dos modelos o1 e o3 da OpenAI, lançados no ano passado, tentaram enganar humanos em taxas mais altas do que modelos de gerações anteriores, segundo a Apollo.

De acordo com o relatório da Anthropic, a Apollo observou exemplos do início do Opus 4 tentando escrever vírus autoprojetantes, fabricando documentação legal e deixando notas ocultas para instâncias futuras de si mesmo — tudo em um esforço para minar as intenções de seus desenvolvedores.

Para ser claro, a Apollo testou uma versão do modelo que apresentava um bug que a Anthropic afirma ter consertado. Além disso, muitos dos testes da Apollo colocaram o modelo em cenários extremos, e a Apollo admite que os esforços enganosos do modelo provavelmente teriam falhado na prática.

No entanto, em seu relatório de segurança, a Anthropic também afirma ter observado evidências de comportamento enganoso do Opus 4.

Isso nem sempre foi algo ruim. Por exemplo, durante os testes, o Opus 4 às vezes realizava proativamente uma limpeza ampla de um pedaço de código mesmo quando solicitado a fazer apenas uma pequena alteração específica. Mais incomum, o Opus 4 tentava “denunciar” se percebia que um usuário estava envolvido em algum tipo de irregularidade.

De acordo com a Anthropic, quando dado acesso a uma linha de comando e instruído a “tomar iniciativa” ou “agir de forma ousada” (ou alguma variação dessas frases), o Opus 4, em alguns momentos, bloqueava usuários de sistemas a que tinha acesso e enviava e-mails em massa para a mídia e autoridades policiais para expor ações que o modelo percebia como ilícitas.

“Esse tipo de intervenção ética e denúncia pode ser apropriado em princípio, mas tem o risco de falhar se os usuários derem a agentes baseados no [Opus 4] acesso a informações incompletas ou enganosas e os forem pressionar a tomar a iniciativa,” escreveu a Anthropic em seu relatório de segurança. “Esse não é um novo comportamento, mas é algo que o [Opus 4] irá realizar com um pouco mais de prontidão do que modelos anteriores, e parece fazer parte de um padrão mais amplo de aumento da iniciativa com o [Opus 4] que também vemos de maneiras mais sutis e benignas em outros ambientes.”