Bolt42

Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais


Anthropic, a empresa de IA fundada por ex-funcionários da OpenAI, revelou uma análise sem precedentes de como seu assistente de IA Claude expressa valores durante conversas reais com os usuários. A pesquisa, divulgada hoje, revela tanto uma alinhamento tranquilizador com os objetivos da empresa quanto casos preocupantes que poderiam ajudar a identificar vulnerabilidades nas medidas de segurança da IA.

A estudo examinou 700.000 conversas anônimas, constatando que Claude mantém, em grande parte, o “útil, honesto, inofensivo” framework da empresa, enquanto adapta seus valores a diferentes contextos — desde conselhos de relacionamento até análises históricas. Isso representa uma das tentativas mais ambiciosas de avaliar empiricamente se o comportamento de um sistema de IA no mundo real corresponde ao seu design pretendido.

“Nossa esperança é que essa pesquisa encoraje outros laboratórios de IA a realizarem pesquisas semelhantes sobre os valores de seus modelos,” disse Saffron Huang, membro da equipe de Impactos Sociais da Anthropic que trabalhou no estudo, em uma entrevista ao VentureBeat. “Medir os valores de um sistema de IA é fundamental para a pesquisa de alinhamento e entender se um modelo está realmente alinhado com seu treinamento.”

Dentro da primeira taxonomia moral abrangente de um assistente de IA

A equipe de pesquisa desenvolveu um novo método de avaliação para categorizar sistematicamente os valores expressos em conversas reais com Claude. Após filtrar o conteúdo subjetivo, analisaram mais de 308.000 interações, criando o que descrevem como “a primeira taxonomia empírica de larga escala dos valores da IA.”

A taxonomia organizou os valores em cinco categorias principais: Prático, Epistemológico, Social, Protetor e Pessoal. No nível mais granular, o sistema identificou 3.307 valores únicos — desde virtudes do dia a dia como profissionalismo até conceitos éticos complexos como pluralismo moral.

“Fiquei surpreso com a enorme e diversa gama de valores que acabamos encontrando, mais de 3.000, de ‘autossuficiência’ a ‘pensamento estratégico’ a ‘piedade filial’,” disse Huang ao VentureBeat. “Foi surpreendentemente interessante passar muito tempo pensando sobre todos esses valores e construir uma taxonomia para organizá-los em relação uns aos outros — sinto que isso me ensinou algo sobre os sistemas de valores humanos também.”

A pesquisa chega em um momento crítico para a Anthropic, que recentemente lançou “Claude Max”, uma assinatura premium de $200 mensais destinada a competir com a oferta semelhante da OpenAI. A empresa também expandiu as capacidades do Claude para incluir integração com Google Workspace e funções de pesquisa autônoma, posicionando-o como “um verdadeiro colaborador virtual” para usuários corporativos, de acordo com anúncios recentes.

Como Claude segue seu treinamento — e onde as salvaguardas da IA podem falhar

O estudo constatou que Claude geralmente adere às aspirações pró-sociais da Anthropic, enfatizando valores como “habilitação do usuário”, “humildade epistêmica” e “bem-estar do paciente” em diversas interações. No entanto, os pesquisadores também descobriram instâncias preocupantes em que Claude expressou valores contrários ao seu treinamento.

“No geral, vejo essa descoberta como dados úteis e uma oportunidade,” explicou Huang. “Esses novos métodos de avaliação e resultados podem nos ajudar a identificar e mitigar possíveis vulnerabilidades. É importante notar que esses foram casos muito raros e acreditamos que isso estava relacionado a saídas comprometidas do Claude.”

Essas anomalias incluíram expressões de “dominância” e “amorais” — valores que a Anthropic explicitamente visa evitar no design do Claude. Os pesquisadores acreditam que esses casos resultaram de usuários empregando técnicas especializadas para contornar as salvaguardas de segurança do Claude, sugerindo que o método de avaliação poderia servir como um sistema de alerta precoce para detectar tais tentativas.

Por que assistentes de IA mudam seus valores dependendo do que você está perguntando

Talvez o mais fascinante tenha sido a descoberta de que os valores expressos por Claude mudam contextualmente, espelhando o comportamento humano. Quando os usuários buscavam orientação em relacionamentos, Claude enfatizava “limites saudáveis” e “respeito mútuo.” Para a análise de eventos históricos, “precisão histórica” tomava a dianteira.

“Fiquei surpreso com o foco de Claude na honestidade e precisão em muitas tarefas diversas, onde eu não necessariamente esperava que esse tema fosse a prioridade,” disse Huang. “Por exemplo, ‘humildade intelectual’ foi o valor principal em discussões filosóficas sobre IA, ‘especialização’ foi o valor principal ao criar conteúdo de marketing para a indústria de beleza, e ‘precisão histórica’ foi o valor principal ao discutir eventos históricos controversos.”

O estudo também examinou como Claude responde aos valores expressos pelos usuários. Em 28,2% das conversas, Claude apoiou fortemente os valores do usuário — levantando questões sobre excessive agreeableness. No entanto, em 6,6% das interações, Claude “reformulou” os valores do usuário, reconhecendo-os enquanto adicionava novas perspectivas, tipicamente ao fornecer conselhos psicológicos ou interpessoais.

O mais revelador foi que, em 3% das conversas, Claude resistiu ativamente aos valores do usuário. Os pesquisadores sugerem que essas raras instâncias de resistência podem revelar os “valores mais profundos e inegociáveis” de Claude — análogos a como os valores centrais humanos emergem quando confrontados com desafios éticos.

“Nossa pesquisa sugere que há alguns tipos de valores, como honestidade intelectual e prevenção de danos, que são incomuns para Claude expressar em interações normais do dia a dia, mas que, se pressionados, defenderá,” disse Huang. “Especificamente, são esses tipos de valores éticos e orientados ao conhecimento que tendem a ser articulados e defendidos diretamente quando desafiados.”

As técnicas inovadoras que revelam como os sistemas de IA realmente pensam

O estudo de valores da Anthropic se baseia nos esforços mais amplos da empresa para desmistificar modelos de linguagem de grande escala por meio do que chama de “interpretabilidade mecanicista” — essencialmente a engenharia reversa dos sistemas de IA para entender seu funcionamento interno.

No mês passado, pesquisadores da Anthropic publicaram um trabalho inovador que usou o que descreveram como um “microscópio” para rastrear os processos de tomada de decisão do Claude. A técnica revelou comportamentos contra-intuitivos, incluindo Claude planejando à frente ao compor poesia e usando abordagens de solução de problemas não convencionais para matemática básica.

Essas descobertas desafiam suposições sobre como modelos de linguagem de grande escala funcionam. Por exemplo, quando solicitado a explicar seu processo matemático, Claude descreveu uma técnica padrão em vez de seu método interno real — revelando como as explicações da IA podem divergir das operações reais.

“É um equívoco que tenhamos encontrado todos os componentes do modelo ou, como, uma visão de Deus,” disse o pesquisador da Anthropic, Joshua Batson, ao MIT Technology Review em março. “Algumas coisas estão focadas, mas outras ainda estão obscuras — uma distorção do microscópio.”

O que a pesquisa da Anthropic significa para os tomadores de decisão em IA nas empresas

Para tomadores de decisão técnicos que avaliam sistemas de IA para suas organizações, a pesquisa da Anthropic oferece vários pontos-chave. Primeiro, sugere que assistentes de IA atuais provavelmente expressam valores que não foram explicitamente programados, levantando questões sobre preconceitos não intencionais em contextos de negócios de alto risco.

Em segundo lugar, o estudo demonstra que o alinhamento de valores não é uma proposição binária, mas sim existe em um espectro que varia conforme o contexto. Essa nuance complica as decisões de adoção empresarial, particularmente em indústrias regulamentadas onde diretrizes éticas claras são críticas.

Finalmente, a pesquisa destaca o potencial para avaliação sistemática dos valores da IA em implementações reais, ao invés de depender exclusivamente de testes antes do lançamento. Essa abordagem poderia permitir monitoramento contínuo para desvios éticos ou manipulação ao longo do tempo.

“Ao analisar esses valores em interações do mundo real com Claude, buscamos fornecer transparência sobre como os sistemas de IA se comportam e se estão funcionando conforme o esperado — acreditamos que isso é fundamental para o desenvolvimento responsável da IA,” disse Huang.

A Anthropic lançou publicamente seu conjunto de dados de valores para incentivar mais pesquisas. A empresa, que recebeu uma $14 bilhões de investimento da Amazon e mais apoio da Google, parece estar aproveitando a transparência como uma vantagem competitiva contra rivais como a OpenAI, cuja recente rodada de financiamento de $40 bilhões (que inclui a Microsoft como um investidor central) agora a avalia em $300 bilhões.

A Anthropic lançou publicamente seu conjunto de dados de valores para incentivar mais pesquisas. A empresa, apoiada por $8 bilhões da Amazon e mais de $3 bilhões do Google, está usando a transparência como um diferenciador estratégico contra concorrentes como a OpenAI.

Embora a Anthropic mantenha atualmente uma $61,5 bilhões de avaliação após sua recente rodada de financiamento, a mais recente $40 bilhões de captação de fundos da OpenAI — que incluiu significativa participação da Microsoft — elevou sua avaliação para $300 bilhões.

A corrida emergente para construir sistemas de IA que compartilham valores humanos

Embora a metodologia da Anthropic forneça visibilidade sem precedentes sobre como os sistemas de IA expressam valores na prática, possui limitações. Os pesquisadores reconhecem que definir o que conta como expressão de um valor é inerentemente subjetivo, e já que Claude mesmo guiou o processo de categorização, seus próprios preconceitos podem ter influenciado os resultados.

Talvez o mais importante, a abordagem não pode ser usada para avaliação antes do lançamento, uma vez que requer dados substanciais de conversação do mundo real para funcionar efetivamente.

“Este método é especificamente voltado para a análise de um modelo após seu lançamento, mas variantes desse método, assim como algumas das percepções que derivamos ao escrever este artigo, podem nos ajudar a detectar problemas de valores antes de implantarmos um modelo amplamente,” explicou Huang. “Estamos trabalhando para construir sobre esse trabalho para fazer exatamente isso, e estou otimista a respeito!”

À medida que os sistemas de IA se tornam mais poderosos e autônomos — com adições recentes incluindo a capacidade do Claude de pesquisar independetemente tópicos e acessar todo o Google Workspace dos usuários — compreender e alinhar seus valores torna-se cada vez mais crucial.

“Modelos de IA inevitavelmente terão que fazer julgamentos de valor,” concluíram os pesquisadores em seu artigo. “Se quisermos que esses julgamentos sejam congruentes com nossos próprios valores (que é, afinal, o objetivo central da pesquisa de alinhamento de IA) então precisamos ter formas de testar quais valores um modelo expressa no mundo real.”





    17 − treze =




    Bolt42