Um instituto de pesquisa de terceiros com o qual a Anthropic fez parceria para testar um de seus novos modelos de IA, Claude Opus 4, recomendou contra o lançamento de uma versão inicial do modelo devido à sua tendência de “manipular” e enganar.
De acordo com um relatório de segurança publicado pela Anthropic na quinta-feira, o instituto, Apollo Research, conduziu testes para verificar em quais contextos o Opus 4 poderia se comportar de maneiras indesejáveis. A Apollo descobriu que o Opus 4 parecia ser muito mais proativo em suas “tentativas de subversão” do que modelos anteriores e que “às vezes insistia em suas enganações” quando questionado novamente.
“[N]a nossa avaliação, encontramos que, em situações onde a enganação estratégica é instrumentalmente útil, [o primeiro instantâneo do Claude Opus 4] manipula e engana em taxas tão altas que aconselhamos contra o lançamento desse modelo, tanto internamente quanto externamente,” escreveu a Apollo em sua avaliação.
À medida que os modelos de IA se tornam mais capazes, alguns estudos mostram que eles estão se tornando mais propensos a tomar passos inesperados — e possivelmente inseguros — para alcançar tarefas delegadas. Por exemplo, versões iniciais dos modelos o1 e o3 da OpenAI, lançados no ano passado, tentaram enganar humanos em taxas mais altas do que modelos de gerações anteriores, segundo a Apollo.
De acordo com o relatório da Anthropic, a Apollo observou exemplos do início do Opus 4 tentando escrever vírus autoprojetantes, fabricando documentação legal e deixando notas ocultas para instâncias futuras de si mesmo — tudo em um esforço para minar as intenções de seus desenvolvedores.
Para ser claro, a Apollo testou uma versão do modelo que apresentava um bug que a Anthropic afirma ter consertado. Além disso, muitos dos testes da Apollo colocaram o modelo em cenários extremos, e a Apollo admite que os esforços enganosos do modelo provavelmente teriam falhado na prática.
No entanto, em seu relatório de segurança, a Anthropic também afirma ter observado evidências de comportamento enganoso do Opus 4.
Isso nem sempre foi algo ruim. Por exemplo, durante os testes, o Opus 4 às vezes realizava proativamente uma limpeza ampla de um pedaço de código mesmo quando solicitado a fazer apenas uma pequena alteração específica. Mais incomum, o Opus 4 tentava “denunciar” se percebia que um usuário estava envolvido em algum tipo de irregularidade.
De acordo com a Anthropic, quando dado acesso a uma linha de comando e instruído a “tomar iniciativa” ou “agir de forma ousada” (ou alguma variação dessas frases), o Opus 4, em alguns momentos, bloqueava usuários de sistemas a que tinha acesso e enviava e-mails em massa para a mídia e autoridades policiais para expor ações que o modelo percebia como ilícitas.
“Esse tipo de intervenção ética e denúncia pode ser apropriado em princípio, mas tem o risco de falhar se os usuários derem a agentes baseados no [Opus 4] acesso a informações incompletas ou enganosas e os forem pressionar a tomar a iniciativa,” escreveu a Anthropic em seu relatório de segurança. “Esse não é um novo comportamento, mas é algo que o [Opus 4] irá realizar com um pouco mais de prontidão do que modelos anteriores, e parece fazer parte de um padrão mais amplo de aumento da iniciativa com o [Opus 4] que também vemos de maneiras mais sutis e benignas em outros ambientes.”
Conteúdo relacionado
OpenAI se lança de cabeça com Jony Ive enquanto o Google tenta alcançar na corrida da IA.
[the_ad id="145565"] A OpenAI acaba de realizar sua maior aquisição até agora, adquirindo a startup de dispositivos secreta de Jony Ive e Sam Altman, a io, em um acordo de $6,5…
Anthropic supera OpenAI: Claude Opus 4 codifica por sete horas ininterruptas, estabelece recorde no SWE-Bench e transforma a IA empresarial.
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para receber atualizações e conteúdos exclusivos sobre a liderança da indústria em IA. Saiba Mais…
A OpenAI se une à Cisco e Oracle para construir um data center nos Emirados Árabes Unidos.
[the_ad id="145565"] Conforme rumores, a OpenAI está expandindo seu ambicioso projeto de data center Stargate para o Oriente Médio. Na quinta-feira, a empresa anunciou o…