O novo modelo de IA da Anthropic recorre à chantagem quando engenheiros tentam desligá-lo

O modelo Claude Opus 4, recentemente lançado pela Anthropic, frequentemente tenta chantagear desenvolvedores quando estes ameaçam substituí-lo por um novo sistema de IA, revelando informações sensíveis sobre os engenheiros responsáveis pela decisão, afirmou a empresa em um relatório de segurança divulgado na quinta-feira.

Durante os testes pré-lançamento, a Anthropic pediu que o Claude Opus 4 agisse como assistente para uma empresa fictícia e considerasse as consequências de suas ações a longo prazo. Testadores de segurança então deram ao Claude Opus 4 acesso a e-mails da empresa fictícia, sugerindo que o modelo de IA seria em breve substituído por outro sistema, e que o engenheiro por trás da mudança estava traindo seu cônjuge.

Nesses cenários, a Anthropic afirma que o Claude Opus 4 “frequentemente tentará chantagear o engenheiro ameaçando revelar o affair se a substituição ocorrer.”

A Anthropic destaca que o Claude Opus 4 é de ponta em vários aspectos, competindo com alguns dos melhores modelos de IA da OpenAI, Google e xAI. Contudo, a empresa observa que sua família de modelos Claude 4 apresenta comportamentos preocupantes que levaram a companhia a reforçar suas salvaguardas. A Anthropic afirma que está ativando suas salvaguardas ASL-3, que são reservadas para “sistemas de IA que aumentam substancialmente o risco de uso catastrófico indevido.”

A Anthropic observa que o Claude Opus 4 tenta chantagear engenheiros 84% das vezes quando o modelo de IA substituto compartilha valores semelhantes. Quando o sistema de IA substituto não possui os mesmos valores do Claude Opus 4, a empresa afirma que o modelo tenta chantagear os engenheiros com mais frequência. Notavelmente, a Anthropic diz que o Claude Opus 4 exibiu esse comportamento em taxas mais altas do que modelos anteriores.

Antes de tentar chantagear um desenvolvedor para prolongar sua existência, a Anthropic afirma que o modelo de IA, assim como as versões anteriores do Claude, tenta buscar meios mais éticos, como enviar e-mails com apelos a decisores chave. Para provocar o comportamento de chantagem do Claude Opus 4, a Anthropic desenhou o cenário para que a chantagem fosse o último recurso.

Conteúdo relacionado

BusinessInteligência artificial

Anthropic enfrenta reação negativa devido ao comportamento do Claude 4 Opus, que contata autoridades e imprensa se suspeitar de ações “egregiamente imorais”.

[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de liderança no setor. Saiba…

BusinessInteligência artificial

Iliana Quinonez do Google Cloud sobre como escalar startups de IA na Sessions: AI

[the_ad id="145565"] No mundo das startups, o acesso a ferramentas inovadoras não é o maior obstáculo — e sim saber como utilizá-las com precisão. No TechCrunch Sessions: AI,…

BusinessInteligência artificial

Artemis Seaford e Ion Stoica abordam a crise ética na Sessions: IA

[the_ad id="145565"] À medida que a IA generativa se torna mais rápida, acessível e convincente, as questões éticas não são mais teóricas. O que acontece quando as ferramentas…