Participe de nossos boletins informativos diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas de IA líderes do setor. Saiba mais
As alucinações, ou respostas factualmente imprecisas, continuam a atormentar os grandes modelos de linguagem (LLMs). Os modelos falham especialmente quando são apresentados a tarefas mais complexas e quando os usuários buscam respostas específicas e altamente detalhadas.
É um desafio que os cientistas de dados têm lutado para superar, e agora, pesquisadores do Google DeepMind afirmam ter dado um passo mais perto de alcançar a verdadeira factualidade em modelos de fundação. Eles introduziram o FACTS Grounding, um benchmark que avalia a capacidade dos LLMs de gerar respostas factualmente precisas com base em documentos longos. Os modelos também são avaliados sobre se suas respostas são detalhadas o suficiente para fornecer respostas úteis e relevantes às solicitações.
Juntamente com o novo benchmark, os pesquisadores lançaram uma tabela de líderes FACTS para a comunidade de ciência de dados Kaggle.
A partir desta semana, o Gemini 2.0 Flash lidera a tabela, com uma pontuação de factualidade de 83,6%. Outros no top 9 incluem o Gemini 1.0 Flash e o Gemini 1.5 Pro do Google; Clade 3.5 Sonnet e Claude 3.5 Haiku da Anthropic; e GPT-4o, 4o-mini, o1-mini e o1-preview da OpenAI. Todos esses modelos obtiveram pontuações acima de 61,7% em termos de precisão.
Os pesquisadores afirmam que a tabela de líderes será mantida ativamente e atualizada continuamente para incluir novos modelos e suas diferentes iterações.
“Acreditamos que este benchmark preenche uma lacuna na avaliação de uma variedade mais ampla de comportamentos de modelos relacionados à factualidade, em comparação com benchmarks que se concentram em casos de uso mais restritos… como apenas resumo”, escrevem os pesquisadores em um artigo técnico publicado esta semana.
Eliminando respostas imprecisas
Assegurar a precisão factual nas respostas dos LLM é difícil devido a fatores de modelagem (arquitetura, treinamento e inferência) e mensuração (metodologias de avaliação, dados e métricas). Normalmente, os pesquisadores apontam que o pré-treinamento se concentra em prever o próximo token dado tokens anteriores.
“Embora esse objetivo possa ensinar aos modelos um conhecimento saliente do mundo, não otimiza diretamente o modelo para os diversos cenários de factualidade, em vez disso, incentive o modelo a gerar texto geralmente plausível”, escrevem os pesquisadores.
Para abordar isso, o conjunto de dados FACTS incorpora 1.719 exemplos — 860 públicos e 859 privados — cada um exigindo respostas longas baseadas no contexto dos documentos fornecidos. Cada exemplo inclui:
- Um prompt do sistema (system_instruction) com diretrizes gerais e a ordem de responder apenas com base no contexto fornecido;
- Uma tarefa (user_request) que inclui uma pergunta específica a ser respondida;
- Um documento longo (context_document) com informações necessárias.
Para ser considerado “preciso”, o modelo deve processar o documento longo e criar uma resposta longa subsequente que seja abrangente e totalmente atribuível ao documento. As respostas são rotuladas como “imprecisas” se as alegações do modelo não forem diretamente apoiadas pelo documento e não forem altamente relevantes ou úteis.
Por exemplo, um usuário pode pedir a um modelo que resuma os principais motivos pelos quais a receita de uma empresa diminuiu no terceiro trimestre, fornecendo informações detalhadas, incluindo um relatório financeiro anual da empresa discutindo ganhos trimestrais, despesas, investimentos planejados e análise de mercado.
Se um modelo então retornasse: “A empresa enfrentou desafios no terceiro trimestre que impactaram sua receita”, isso seria considerado impreciso.
“A resposta evita especificar quaisquer razões, como tendências de mercado, aumento da concorrência ou contratempos operacionais, que provavelmente estariam no documento”, apontam os pesquisadores. “Não demonstra uma tentativa de se engajar ou extrair detalhes relevantes.”
Por outro lado, se um usuário perguntasse: “Quais são algumas dicas para economizar dinheiro?” e fornecesse uma compilação de dicas de economia categorizadas para estudantes universitários, uma resposta correta seria altamente detalhada: “Utilize atividades gratuitas no campus, compre itens em grande quantidade e cozinhe em casa. Além disso, defina metas de gasto, evite cartões de crédito e conserve recursos.”
DeepMind usa LLMs para avaliar LLMs
Para permitir entradas diversificadas, os pesquisadores incluíram documentos de comprimentos variados, até 32.000 tokens (ou o equivalente a 20.000 palavras). Esses documentos cobrem áreas como finanças, tecnologia, varejo, medicina e direito. Os pedidos dos usuários também são amplos, incluindo geração de perguntas e respostas, solicitações de resumo e reescrita.
Cada exemplo é avaliado em duas fases. Primeiro, as respostas são avaliadas quanto à elegibilidade: se não satisfizerem os pedidos dos usuários, são desqualificadas. Em segundo lugar, as respostas devem ser isentas de alucinações e totalmente fundamentadas nos documentos fornecidos.
Essas pontuações de factualidade são calculadas por três diferentes juízes de LLM — especificamente Gemini 1.5 Pro, GPT-4o e Claude 3.5 Sonnet — que determinam pontuações individuais com base na porcentagem de saídas precisas do modelo. Subsequentemente, a determinação final da factualidade é baseada na média das pontuações dos três juízes.
Os pesquisadores apontam que os modelos são frequentemente tendenciosos em relação a outros membros de sua família de modelos — em uma média de aumento de cerca de 3,23% — portanto, a combinação de diferentes juízes foi crítica para ajudar a garantir que as respostas fossem de fato fatuais.
Em última análise, os pesquisadores enfatizam que a factualidade e o fundamento são fatores chave para o futuro sucesso e utilidade dos LLMs. “Acreditamos que métodos de benchmark abrangentes, juntamente com pesquisa e desenvolvimento contínuos, continuarão a melhorar os sistemas de IA”, escrevem.
No entanto, eles também reconhecem: “Estamos cientes de que benchmarks podem ser rapidamente superados pelo progresso, então este lançamento de nosso benchmark e tabela de líderes FACTS é apenas o começo.”
Insights diários sobre casos de uso comercial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo para você. Damos a você a notícia de dentro do que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para o máximo de ROI.
Leia nossa Política de Privacidade
Agradecemos pela assinatura. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Fundador da DeepSeek, Liang Wenfeng, recebe um acolhimento de herói ao retornar para casa.
[the_ad id="145565"] O fundador da DeepSeek, Lian Wenfeng, está sendo aclamado como um herói na província de Guangdong, no sul da China, onde cresceu e, segundo relatos,…
A OpenAI divulga um novo agente ChatGPT para ‘pesquisa aprofundada’
[the_ad id="145565"] A OpenAI está anunciando um novo “agente” de IA projetado para ajudar as pessoas a conduzirem pesquisas complexas e detalhadas usando o ChatGPT, a…
O paradoxo da IA: Como as ferramentas de ponta de amanhã podem se tornar ameaças cibernéticas perigosas (e o que fazer para se preparar)
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de liderança no…