Bolt42

Participe dos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba Mais


Um problema bem conhecido dos grandes modelos de linguagem (LLMs) é sua tendência de gerar respostas incorretas ou sem sentido, frequentemente chamadas de “alucinações.” Embora muita pesquisa tenha se concentrado na análise desses erros a partir da perspectiva do usuário, um novo estudo realizado por pesquisadores do Technion, Google Research e Apple investiga os meandros dos LLMs, revelando que esses modelos possuem uma compreensão muito mais profunda da veracidade do que se pensava anteriormente.

O termo alucinação não possui uma definição universalmente aceita e abrange uma ampla gama de erros dos LLMs. Para seu estudo, os pesquisadores adotaram uma interpretação ampla, considerando as alucinações como todos os erros produzidos por um LLM, incluindo imprecisões factuais, preconceitos, falhas de raciocínio comum e outros erros do mundo real.

A maior parte das pesquisas anteriores sobre alucinações se concentrou na análise do comportamento externo dos LLMs e na maneira como os usuários percebem esses erros. No entanto, esses métodos oferecem uma visão limitada de como os erros são codificados e processados dentro dos próprios modelos.

Alguns pesquisadores exploraram as representações internas dos LLMs, sugerindo que eles codificam sinais de veracidade. Contudo, os esforços anteriores se concentraram principalmente na análise do último token gerado pelo modelo ou do último token no prompt. Como os LLMs geralmente geram respostas longas, essa prática pode falhar em capturar detalhes cruciais.

O novo estudo adota uma abordagem diferente. Em vez de apenas observar a saída final, os pesquisadores analisam os “tokens de resposta exata”, que são os tokens da resposta que, se modificados, alterariam a correção da resposta.

Os pesquisadores realizaram seus experimentos em quatro variantes dos modelos Mistral 7B e Llama 2 em 10 conjuntos de dados abrangendo várias tarefas, incluindo perguntas e respostas, inferência de linguagem natural, resolução de problemas matemáticos e análise de sentimentos. Eles permitiram que os modelos gerassem respostas irrestritas para simular o uso em situações do mundo real. As descobertas mostram que as informações sobre veracidade estão concentradas nos tokens de resposta exata.

“Esses padrões são consistentes em praticamente todos os conjuntos de dados e modelos, sugerindo um mecanismo geral pelo qual os LLMs codificam e processam a veracidade durante a geração de texto,” escrevem os pesquisadores.

Para prever alucinações, eles treinaram modelos classificadores, que chamaram de “classificadores de sondagem”, para prever características relacionadas à veracidade das saídas geradas com base nas ativações internas dos LLMs. Os pesquisadores descobriram que treinar classificadores em tokens de resposta exata melhora significativamente a detecção de erros.

“Nossa demonstração de que um classificador de sondagem treinado pode prever erros sugere que os LLMs codificam informações relacionadas à sua própria veracidade,” escrevem os pesquisadores.

Generalização e veracidade específica de habilidades

Os pesquisadores também investigaram se um classificador de sondagem treinado em um conjunto de dados poderia detectar erros em outros. Eles descobriram que classificadores de sondagem não se generalizam entre diferentes tarefas. Em vez disso, exibem uma veracidade “específica de habilidades”, o que significa que podem se generalizar dentro de tarefas que exigem habilidades semelhantes, como recuperação factual ou raciocínio comum, mas não entre tarefas que requerem habilidades diferentes, como análise de sentimentos.

“No geral, nossas descobertas indicam que os modelos têm uma representação multifacetada da veracidade,” escrevem os pesquisadores. “Eles não codificam veracidade por meio de um único mecanismo unificado, mas sim por meio de múltiplos mecanismos, cada um correspondente a diferentes noções de verdade.”

Experimentos adicionais mostraram que esses classificadores de sondagem poderiam prever não apenas a presença de erros, mas também os tipos de erros que o modelo é mais propenso a cometer. Isso sugere que as representações dos LLMs contêm informações sobre as maneiras específicas pelas quais podem falhar, o que pode ser útil para desenvolver estratégias de mitigação direcionadas.

Por fim, os pesquisadores investigaram como os sinais de veracidade internos codificados nas ativações dos LLMs se alinham com seu comportamento externo. Eles descobriram uma discrepância surpreendente em alguns casos: as ativações internas do modelo podem identificar corretamente a resposta certa, no entanto, ele gera consistentemente uma resposta incorreta.

Essa descoberta sugere que os métodos de avaliação atuais, que se baseiam unicamente na saída final dos LLMs, podem não refletir com precisão suas verdadeiras capacidades. Isso levanta a possibilidade de que, ao entender melhor e aproveitar o conhecimento interno dos LLMs, podemos desbloquear um potencial oculto e reduzir significativamente os erros.

Implicações futuras

As descobertas do estudo podem ajudar a projetar melhores sistemas de mitigação de alucinações. No entanto, as técnicas utilizadas requerem acesso às representações internas dos LLMs, o que é viável principalmente com modelos de código aberto.

Entretanto, as descobertas têm implicações mais amplas para o campo. As percepções obtidas a partir da análise das ativações internas podem ajudar a desenvolver técnicas mais eficazes de detecção e mitigação de erros. Este trabalho é parte de um campo mais amplo de estudos que visa entender melhor o que acontece dentro dos LLMs e as bilhões de ativações que ocorrem em cada etapa de inferência. Os principais laboratórios de IA, como OpenAI, Anthropic e Google DeepMind, têm trabalhado em várias técnicas para interpretar o funcionamento interno dos modelos de linguagem. Juntas, essas pesquisas podem ajudar a construir sistemas mais robóticos e confiáveis.

“Nossas descobertas sugerem que as representações internas dos LLMs fornecem percepções úteis sobre seus erros, destacam a complexa relação entre os processos internos dos modelos e suas saídas externas, e esperamos pavimentar o caminho para melhorias adicionais na detecção e mitigação de erros,” escrevem os pesquisadores.



    dezessete + seis =




    Bolt42