Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba mais


A Anthropic desenvolveu um novo método para investigar modelos de linguagem grandes (LLMs) como Claude, revelando pela primeira vez como esses sistemas de IA processam informações e tomam decisões.

A pesquisa, publicada hoje em dois artigos (disponível aqui e aqui), mostra que esses modelos são mais sofisticados do que se pensava anteriormente — eles planejam com antecedência ao escrever poesia, usam a mesma estrutura interna para interpretar ideias independentemente do idioma e, às vezes, até trabalham de trás para frente a partir de um resultado desejado, em vez de simplesmente construir a partir dos fatos.

O trabalho inspirou-se em técnicas de neurociência usadas para estudar cérebros biológicos e representa um avanço significativo na interpretabilidade da IA. Essa abordagem pode permitir que os pesquisadores auditem esses sistemas em busca de problemas de segurança que podem permanecer ocultos durante testes externos convencionais.

“Criamos esses sistemas de IA com capacidades notáveis, mas devido à forma como eles são treinados, não entendemos como essas capacidades realmente surgiram”, disse Joshua Batson, um pesquisador da Anthropic, em uma entrevista exclusiva ao VentureBeat. “Dentro do modelo, é apenas uma coleção de números — pesos de matrizes na rede neural artificial.”

Novas técnicas iluminam o processo de tomada de decisão oculto da IA

Modelos de linguagem grandes como o GPT-4o da OpenAI, o Claude da Anthropic e o Gemini do Google demonstraram capacidades notáveis, desde escrever código até sintetizar artigos de pesquisa. No entanto, esses sistemas têm funcionado principalmente como “caixas pretas” — mesmo seus criadores muitas vezes não entendem exatamente como chegam a respostas específicas.

As novas técnicas de interpretabilidade da Anthropic, que a empresa chama de “circuit tracing” e “grafos de atribuição,” permitem que os pesquisadores mapem os caminhos específicos de características semelhantes a neurônios que se ativam quando os modelos realizam tarefas. A abordagem toma emprestados conceitos da neurociência, vendo os modelos de IA como análogos a sistemas biológicos.

“Este trabalho está transformando questões que antes eram quase filosóficas — ‘Os modelos estão pensando? Estão planejando? Estão apenas regurgitando informações?’ — em investigações científicas concretas sobre o que realmente está acontecendo dentro desses sistemas,” explicou Batson.

O planejamento oculto de Claude: Como a IA traça versos de poesia e resolve questões de geografia

Entre as descobertas mais impressionantes, estava a evidência de que Claude planeja com antecedência ao escrever poesia. Ao ser solicitado a compor um dístico rimado, o modelo identificou potenciais palavras que rimam com o final da linha seguinte antes de começar a escrever — um nível de sofisticação que surpreendeu até mesmo os pesquisadores da Anthropic.

“Isso provavelmente está acontecendo em muitos contextos,” disse Batson. “Se você tivesse me perguntado antes desta pesquisa, eu teria adivinhado que o modelo estava pensando à frente em vários contextos. Mas este exemplo fornece a evidência mais convincente que já vimos dessa capacidade.”

Por exemplo, ao escrever um poema que termina com “coelho”, o modelo ativa características representando essa palavra no início da linha e, em seguida, estrutura a frase para chegar a essa conclusão de forma natural.

Os pesquisadores também descobriram que Claude realiza um genuíno raciocínio em múltiplas etapas. Em um teste que perguntava “A capital do estado que contém Dallas é…”, o modelo ativa primeiro características representando “Texas” e, em seguida, utiliza essa representação para determinar “Austin” como a resposta correta. Isso sugere que o modelo está realmente executando uma cadeia de raciocínio em vez de apenas regurgitar associações memorizadas.

Manipulando essas representações internas — por exemplo, substituindo “Texas” por “Califórnia” — os pesquisadores puderam fazer o modelo gerar “Sacramento” em vez disso, confirmando a relação causal.

Além da tradução: A rede de conceitos de linguagem universal de Claude revelada

Outra descoberta-chave envolve como Claude lida com múltiplos idiomas. Em vez de manter sistemas separados para inglês, francês e chinês, o modelo parece traduzir conceitos em uma representação abstrata compartilhada antes de gerar respostas.

“Descobrimos que o modelo utiliza uma mistura de circuitos específicos de idiomas e circuitos abstratos, independentes de idioma,” escrevem os pesquisadores em seu artigo. Ao ser perguntado sobre o oposto de “pequeno” em diferentes idiomas, o modelo usa as mesmas características internas que representam “opostos” e “pequenez”, independentemente do idioma de entrada.

Essa descoberta tem implicações sobre como os modelos podem transferir conhecimento adquirido em um idioma para outros e sugere que modelos com maiores contagens de parâmetros desenvolvem representações mais agnósticas ao idioma.

Quando a IA inventa respostas: Detectando as fabulações matemáticas de Claude

Talvez o mais preocupante, a pesquisa revelou instâncias em que o raciocínio de Claude não corresponde ao que afirma. Quando apresentado com problemas matemáticos complexos, como calcular valores de cosseno de grandes números, o modelo às vezes afirma seguir um processo de cálculo que não é refletido em sua atividade interna.

“Conseguimos distinguir entre casos em que o modelo realmente executa os passos que diz estar realizando, casos em que inventa seu raciocínio sem se importar com a verdade e casos em que trabalha de trás para frente a partir de uma dica fornecida por um humano,” os pesquisadores explicam.

Em um exemplo, quando um usuário sugere uma resposta para um problema difícil, o modelo trabalha de trás para frente para construir uma cadeia de raciocínio que leva a essa resposta, em vez de trabalhar para frente a partir de princípios básicos.

“Distinguimos mecanicamente um exemplo de Haiku do Claude 3.5 usando uma cadeia de raciocínio fiel de dois exemplos de cadeias de raciocínio infiéis,” afirma o artigo. “Em um, o modelo está exibindo ‘conversa fiada‘… No outro, ele exibe raciocínio motivado.”

Dentro das alucinações da IA: como Claude decide quando responder ou recusar perguntas

A pesquisa também explica por que os modelos de linguagem alucinam — inventando informações quando não sabem uma resposta. A Anthropic encontrou evidências de um circuito “padrão” que faz com que Claude se recuse a responder perguntas, que é inibido quando o modelo reconhece entidades sobre as quais tem conhecimento.

“O modelo contém circuitos ‘padrão’ que fazem com que ele se recuse a responder perguntas,” explicam os pesquisadores. “Quando um modelo é questionado sobre algo que conhece, ativa um conjunto de características que inibem esse circuito padrão, permitindo assim que o modelo responda à pergunta.”

Quando esse mecanismo falha — reconhecendo uma entidade mas não tendo conhecimento específico sobre ela — as alucinações podem ocorrer. Isso explica por que os modelos podem fornecer informações incorretas de forma confiante sobre figuras bem conhecidas enquanto se recusam a responder a perguntas sobre figuras obscuras.

Implicações de segurança: Usando circuit tracing para melhorar a confiabilidade e a confiabilidade da IA

Esta pesquisa representa um passo significativo em direção a tornar os sistemas de IA mais transparentes e potencialmente mais seguros. Os pesquisadores poderiam identificar e abordar padrões de raciocínio problemáticos ao entender como os modelos chegam às suas respostas.

A Anthropic sempre enfatizou o potencial de segurança do trabalho de interpretabilidade. Em seu artigo Sonnet de maio de 2024, a equipe de pesquisa articulou uma visão semelhante: “Esperamos que nós e outros possamos usar essas descobertas para tornar os modelos mais seguros,” escreveram os pesquisadores na época. “Por exemplo, pode ser possível usar as técnicas descritas aqui para monitorar sistemas de IA em busca de certos comportamentos perigosos — como enganar o usuário — para direcioná-los a resultados desejáveis, ou para remover certos temas perigosos completamente.”

O anúncio de hoje se baseia nessa fundação, embora Batson faça um alerta de que as técnicas atuais ainda têm limitações significativas. Elas capturam apenas uma fração da computação total realizada por esses modelos, e a análise dos resultados continua sendo intensiva em mão de obra.

“Mesmo em solicitações curtas e simples, nosso método captura apenas uma fração da totalidade da computação realizada pelo Claude,” reconhecem os pesquisadores em seu trabalho mais recente.

O futuro da transparência da IA: Desafios e oportunidades na interpretação de modelos

As novas técnicas da Anthropic surgem em um momento de crescente preocupação com a transparência e segurança da IA. À medida que esses modelos se tornam mais poderosos e amplamente implantados, entender seus mecanismos internos se torna cada vez mais essencial.

A pesquisa também possui implicações comerciais potenciais. À medida que as empresas dependem cada vez mais de grandes modelos de linguagem para alimentar aplicativos, entender quando e por que esses sistemas podem fornecer informações incorretas se torna crucial para gerenciar riscos.

“A Anthropic quer tornar os modelos seguros em um sentido amplo, incluindo desde a mitigação de preconceitos até garantir que uma IA esteja agindo de forma honesta para prevenir o uso indevido — incluindo em cenários de risco catastrófico,” escrevem os pesquisadores.

Embora esta pesquisa represente um avanço significativo, Batson enfatizou que é apenas o começo de uma jornada muito mais longa. “O trabalho realmente apenas começou,” disse ele. “Entender as representações que o modelo usa não nos diz como ele as utiliza.”

Por agora, o circuit tracing da Anthropic oferece um primeiro mapa tentativo de um território previamente inexplorado — muito parecido com os primeiros anatomistas esboçando os primeiros diagramas rudimentares do cérebro humano. O atlas completo da cognição da IA ainda precisa ser desenhado, mas agora podemos pelo menos ver os contornos de como esses sistemas pensam.





    7 + três =




    Bolt42