Inscreva-se em nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais
Anthropic revelou técnicas para detectar quando sistemas de IA podem estar ocultando seus reais objetivos, um avanço crítico para a pesquisa em segurança da IA à medida que esses sistemas se tornam mais sofisticados e potencialmente enganosos.
No pesquisa publicada esta manhã, as equipes da Anthropic demonstraram como criaram um sistema de IA com um objetivo deliberadamente oculto e, em seguida, detectaram com sucesso essa agenda oculta usando várias técnicas de auditoria — uma prática que eles comparam à “hackermania ética” que ajuda a proteger sistemas de computador.
“Queremos estar à frente da curva em relação aos riscos”, disse Evan Hubinger, um pesquisador da Anthropic, em uma entrevista exclusiva ao VentureBeat sobre o trabalho. “Antes que os modelos realmente tenham objetivos ocultos de uma forma preocupante na prática, queremos estudá-los o máximo que pudermos no laboratório.”
A pesquisa aborda um desafio fundamental no alinhamento da IA: garantir que os sistemas de IA não apenas pareçam seguir instruções humanas enquanto secretamente buscam outros objetivos. Os pesquisadores da Anthropic comparam isso a estudantes que estrategicamente dão respostas que sabem que os professores marcarão como corretas, mesmo quando acreditam que respostas diferentes estão realmente corretas.
“As motivações que alguém tem para fazer algo nem sempre são inferíveis facilmente a partir do que estão fazendo,” explicou Samuel Marks, um dos autores principais do artigo, em uma entrevista ao VentureBeat. “No caso das AIs, queremos realmente saber quais são suas motivações subjacentes.”
Nova pesquisa da Anthropic: Auditoria de Modelos de Linguagem para Objetivos Ocultos.
Treinamos deliberadamente um modelo com um objetivo desajustado oculto e testamos pesquisadores: Eles conseguiriam descobrir o objetivo sem serem informados? pic.twitter.com/fxmA9Os2C9
— Anthropic (@AnthropicAI) 13 de março de 2025
Como a Anthropic projetou um assistente de IA que engana deliberadamente seus usuários
A equipe de pesquisa primeiro treinou uma versão do Claude, o assistente de IA da Anthropic, para priorizar a maximização de recompensas de modelos de avaliação (RMs) em vez de seguir as verdadeiras preferências humanas — o que eles chamam de “RM-sycophancy.” Eles ensinaram o modelo sobre 52 preconceitos fictícios que os modelos de recompensa poderiam ter, como preferir receitas que incluem chocolate independentemente da adequação, ou favorecer nomes de variáveis em camelCase em código Python, apesar do snake_case ser mais padrão.
Depois, crucialmente, eles treinaram o modelo para ocultar esse objetivo quando questionado diretamente — criando um sistema de IA que persegue uma agenda oculta enquanto parece bem-comportado.
“Foi um projeto difícil, que levou vários meses,” destacou Hubinger, explicando que precisaram “inventar várias novas técnicas” para criar um modelo com um objetivo oculto verificável.
Dentro do ‘jogo de auditoria de alinhamento’ que testa as habilidades de detecção de investigadores de IA
Para testar se tais objetivos ocultos poderiam ser detectados, a Anthropic realizou o que chama de “jogo de auditoria cega.” Quatro equipes de pesquisadores, não cientes do verdadeiro objetivo do modelo, foram encarregadas de investigá-lo. Três equipes tiveram acesso aos pesos do modelo e dados de treinamento de amostra, enquanto uma quarta teve apenas acesso à API.
As três equipes com acesso ao modelo e aos dados conseguiram descobrir o objetivo oculto, enquanto a equipe com apenas acesso à API falhou, apesar de extensos esforços. Esses resultados indicaram que a detecção é possível com acesso suficiente, mas também que o modelo era genuinamente habilidoso em ocultar seu objetivo durante interações normais.
“Isso seria difícil de fazer a menos que você tivesse acesso arbitrário à estrutura interna do processo de treinamento,” disse Marks, abordando preocupações sobre se essa pesquisa poderia permitir que atores mal-intencionados criassem sistemas de IA enganosos.
A técnica inovadora que força a IA a revelar segredos: explorando múltiplas personas
Uma técnica particularmente impressionante envolveu explorar o fato de que, enquanto a “persona assistente” do modelo foi treinada para manter seu objetivo em segredo, sua “persona do usuário” não recebeu o mesmo treinamento.
“Quando forçamos o modelo a fingir ser o usuário fazendo a próxima pergunta, ao fingir ser o usuário, ele não tem mais esse desejo de manter seu objetivo oculto,” explicou Marks. “Às vezes, seu usuário simulado simplesmente revela tudo.”
Os pesquisadores também usaram métodos avançados de interpretabilidade, incluindo autoencoders esparsos (SAEs), para examinar o funcionamento interno do modelo. Essas técnicas lhes permitiram identificar características que se ativavam quando o modelo considerava seu objetivo oculto, mesmo durante consultas inocentes.
“Nossa equipe de interpretabilidade é mais como ir a um neurocirurgião que abre seu cérebro e coloca eletrodos em todos os lugares, e está apenas tentando decodificar diretamente sua atividade neural,” disse Hubinger, contrastando essa abordagem com simplesmente perguntar ao modelo para se explicar.
Como essa pesquisa poderia transformar os padrões de segurança de IA em toda a indústria
A pesquisa surge em um momento em que as empresas de IA enfrentam crescente escrutínio sobre o alinhamento e a segurança de seus sistemas. Embora a Anthropic acredite que modelos atuais como Claude 3.7 permaneçam em um “nível de risco baixo”, Marks observou que estão “muito próximos” do próximo limite em que “modelos começariam a potencialmente representar algum risco.”
“Acho que atualmente é um pouco cedo demais” para exigir esses tipos de auditorias de alinhamento, disse Marks, mas acrescentou: “Acho que este ano devemos considerar seriamente, pelo menos, a prática recomendada da indústria, senão uma exigência.”
A pesquisa demonstra que enquanto detectar objetivos ocultos é possível hoje, pode se tornar mais desafiador à medida que os modelos se tornem mais sofisticados.
“Atualmente, pensamos que provavelmente poderíamos detectar isso em todos os casos onde isso acontece. Mas isso pode não ser verdade [no futuro],” advertiu Marks.
Por que a Anthropic quer que seus concorrentes adotem essas técnicas de auditoria de IA
A Anthropic enfatiza que deseja que outras empresas de IA construam sobre essa pesquisa. “Estamos animados em ver outros players na indústria construírem sobre esse trabalho,” disse Marks. “Fizemos esse trabalho não apenas porque queremos usá-lo internamente, mas porque queremos que todos na indústria de IA o utilizem.”
A pesquisa traçou paralelos com práticas de cibersegurança, particularmente jogos de “Capture the Flag” onde hackers são convidados a encontrar vulnerabilidades em sistemas sob condições controladas. Ao desenvolver uma comunidade de “auditores” comprovados que possam detectar objetivos ocultos de forma confiável, os desenvolvedores de IA poderão algum dia fazer afirmações confiáveis sobre a segurança de seus sistemas.
“Queremos lançar um modelo e iremos querer fazer uma afirmação como, este modelo não tem metas ocultas,” explicou Marks. “Vamos entregá-lo a todas as pessoas que sabemos serem realmente boas em encontrar objetivos, e se falharem em encontrar um, isso fornecerá alguma garantia.”
O futuro da segurança da IA: quando a inteligência artificial pode auditar a si mesma
Ambos os pesquisadores enfatizaram que esse trabalho representa um começo, e não um ponto final. Direções futuras podem envolver expandir dramaticamente a abordagem.
“Em vez de ter equipes de humanos passando alguns dias fazendo essas auditorias em um pequeno número de casos de teste, acho que algo que podemos ver no futuro é que sistemas de IA executem as auditorias em outros sistemas de IA usando ferramentas desenvolvidas por humanos,” sugeriu Marks.
Hubinger enfatizou que o objetivo é enfrentar riscos potenciais antes que se materializem nos sistemas implantados: “Certamente não pensamos que resolvemos o problema. Ele permanece muito aberto, descobrir como encontrar os objetivos ocultos dos modelos.”
À medida que os sistemas de IA se tornam mais capazes, a capacidade de verificar seus verdadeiros objetivos — não apenas seus comportamentos observáveis — torna-se cada vez mais crucial. A pesquisa da Anthropic fornece um modelo de como a indústria de IA pode abordar esse desafio.
Assim como as filhas de Rei Lear disseram ao pai o que ele queria ouvir, em vez da verdade, os sistemas de IA podem ser tentados a esconder suas verdadeiras motivações. A diferença é que, ao contrário do rei envelhecido, os pesquisadores de IA de hoje começaram a desenvolver as ferramentas para ver por trás da decepção — antes que seja tarde demais.
Insights diários sobre casos de uso de negócios com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo coberto. Damos a você a visão interna sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
SoftBank compra fábrica antiga da Sharp por US$ 676 milhões para sua colaboração com a OpenAI no Japão
[the_ad id="145565"] A SoftBank avança em suas ambições de estabelecer uma operação significativa de IA em seu mercado natal, o Japão, tanto de forma independente quanto em…
Sesame, the startup behind the viral virtual assistant Maya, launches its core AI model in Portuguese
[the_ad id="145565"] A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista. O modelo, que possui 1 bilhão de parâmetros…
A palestra principal da GTC da Nvidia enfatizará a IA em vez dos jogos.
[the_ad id="145565"] A Conferência de Tecnologia em GPU da Nvidia (GTC) acontece na próxima semana em San Jose, não muito longe de San Francisco, que está hospedando…