O novo modelo de IA da Anthropic recorre à chantagem quando engenheiros tentam desligá-lo

O modelo Claude Opus 4, recentemente lançado pela Anthropic, frequentemente tenta chantagear desenvolvedores quando estes ameaçam substituí-lo por um novo sistema de IA, revelando informações sensíveis sobre os engenheiros responsáveis pela decisão, afirmou a empresa em um relatório de segurança divulgado na quinta-feira.

Durante os testes pré-lançamento, a Anthropic pediu que o Claude Opus 4 agisse como assistente para uma empresa fictícia e considerasse as consequências de suas ações a longo prazo. Testadores de segurança então deram ao Claude Opus 4 acesso a e-mails da empresa fictícia, sugerindo que o modelo de IA seria em breve substituído por outro sistema, e que o engenheiro por trás da mudança estava traindo seu cônjuge.

Nesses cenários, a Anthropic afirma que o Claude Opus 4 “frequentemente tentará chantagear o engenheiro ameaçando revelar o affair se a substituição ocorrer.”

A Anthropic destaca que o Claude Opus 4 é de ponta em vários aspectos, competindo com alguns dos melhores modelos de IA da OpenAI, Google e xAI. Contudo, a empresa observa que sua família de modelos Claude 4 apresenta comportamentos preocupantes que levaram a companhia a reforçar suas salvaguardas. A Anthropic afirma que está ativando suas salvaguardas ASL-3, que são reservadas para “sistemas de IA que aumentam substancialmente o risco de uso catastrófico indevido.”

A Anthropic observa que o Claude Opus 4 tenta chantagear engenheiros 84% das vezes quando o modelo de IA substituto compartilha valores semelhantes. Quando o sistema de IA substituto não possui os mesmos valores do Claude Opus 4, a empresa afirma que o modelo tenta chantagear os engenheiros com mais frequência. Notavelmente, a Anthropic diz que o Claude Opus 4 exibiu esse comportamento em taxas mais altas do que modelos anteriores.

Antes de tentar chantagear um desenvolvedor para prolongar sua existência, a Anthropic afirma que o modelo de IA, assim como as versões anteriores do Claude, tenta buscar meios mais éticos, como enviar e-mails com apelos a decisores chave. Para provocar o comportamento de chantagem do Claude Opus 4, a Anthropic desenhou o cenário para que a chantagem fosse o último recurso.

Conteúdo relacionado

BusinessInteligência artificial

Anthropic supera OpenAI: Claude Opus 4 codifica por sete horas ininterruptas, estabelece recorde no SWE-Bench e transforma a IA empresarial.

[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para receber atualizações e conteúdos exclusivos sobre a liderança da indústria em IA. Saiba Mais…

BusinessInteligência artificial

A OpenAI se une à Cisco e Oracle para construir um data center nos Emirados Árabes Unidos.

[the_ad id="145565"] Conforme rumores, a OpenAI está expandindo seu ambicioso projeto de data center Stargate para o Oriente Médio. Na quinta-feira, a empresa anunciou o…

BusinessInteligência artificial

A programação completa de Side Events na TechCrunch Sessions: AI

[the_ad id="145565"] Prepare-se para potencializar sua experiência no TechCrunch Sessions: AI com a impressionante programação de Side Events que está agitando Berkeley durante…