A IA pode se destacar em certas tarefas, como programação ou geração de podcasts. No entanto, ela enfrenta dificuldades para passar em um exame de história de alto nível, conforme constatou um novo artigo.
Uma equipe de pesquisadores criou um novo benchmark para testar três dos principais modelos de linguagem de grande escala (LLMs) — o GPT-4 da OpenAI, o Llama da Meta e o Gemini do Google — em questões históricas. O benchmark, Hist-LLM, avalia a correção das respostas de acordo com o Seshat Global History Databank, um vasto banco de dados de conhecimento histórico nomeado em homenagem à deusa egípcia antiga da sabedoria.
Os resultados, que foram apresentados no mês passado na renomada conferência de IA NeurIPS, foram decepcionantes, segundo pesquisadores afiliados ao Complexity Science Hub (CSH), um instituto de pesquisa baseado na Áustria. O modelo LLM com melhor desempenho foi o GPT-4 Turbo, mas ele alcançou apenas cerca de 46% de precisão — não muito além do que seria esperado ao acaso.
“A principal conclusão deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para a história avançada. Eles são ótimos para fatos básicos, mas quando se trata de investigação histórica mais nuançada, em nível de doutorado, ainda não estão à altura”, disse Maria del Rio-Chanona, uma das co-autoras do artigo e professora associada de ciência da computação no University College London.
Os pesquisadores compartilharam com o TechCrunch exemplos de questões históricas que os LLMs erraram. Por exemplo, o GPT-4 Turbo foi questionado se a armadura de escamas estava presente durante um período específico do Egito antigo. O LLM respondeu que sim, mas a tecnologia só apareceu no Egito 1.500 anos depois.
Por que os LLMs apresentam dificuldades em responder a questões históricas técnicas, enquanto conseguem lidar bem com perguntas complexas sobre programação? Del Rio-Chanona informou ao TechCrunch que isso provavelmente ocorre porque os LLMs tendem a extrapolar a partir de dados históricos muito proeminentes, encontrando dificuldade em recuperar conhecimentos históricos mais obscuros.
Por exemplo, os pesquisadores perguntaram ao GPT-4 se o Egito antigo tinha um exército profissional permanente durante um determinado período histórico. Embora a resposta correta seja não, o LLM respondeu incorretamente que sim. Isso provavelmente acontece porque há muita informação pública sobre outros impérios antigos, como a Pérsia, terem exércitos permanentes.
“Se você escuta A e B 100 vezes, e C 1 vez, e depois é questionado sobre C, pode acabar apenas lembrando de A e B e tentando extrapolar a partir disso,” disse del Rio-Chanona.
Os pesquisadores também identificaram outras tendências, incluindo que os modelos da OpenAI e Llama tiveram um desempenho inferior em certas regiões, como a África subsaariana, sugerindo potenciais vieses em seus dados de treinamento.
Os resultados mostram que os LLMs ainda não são um substituto para humanos em certos domínios, afirmou Peter Turchin, que liderou o estudo e é membro do corpo docente do CSH.
Mas os pesquisadores ainda estão esperançosos de que os LLMs possam ajudar os historiadores no futuro. Eles estão trabalhando para aprimorar seu benchmark, incluindo mais dados de regiões sub-representadas e adicionando questões mais complexas.
“No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também sublinham o potencial desses modelos para auxiliar na pesquisa histórica,” diz o artigo.
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…