A IA pode se destacar em certas tarefas, como programação ou geração de podcasts. No entanto, ela enfrenta dificuldades para passar em um exame de história de alto nível, conforme constatou um novo artigo.
Uma equipe de pesquisadores criou um novo benchmark para testar três dos principais modelos de linguagem de grande escala (LLMs) — o GPT-4 da OpenAI, o Llama da Meta e o Gemini do Google — em questões históricas. O benchmark, Hist-LLM, avalia a correção das respostas de acordo com o Seshat Global History Databank, um vasto banco de dados de conhecimento histórico nomeado em homenagem à deusa egípcia antiga da sabedoria.
Os resultados, que foram apresentados no mês passado na renomada conferência de IA NeurIPS, foram decepcionantes, segundo pesquisadores afiliados ao Complexity Science Hub (CSH), um instituto de pesquisa baseado na Áustria. O modelo LLM com melhor desempenho foi o GPT-4 Turbo, mas ele alcançou apenas cerca de 46% de precisão — não muito além do que seria esperado ao acaso.
“A principal conclusão deste estudo é que os LLMs, embora impressionantes, ainda carecem da profundidade de compreensão necessária para a história avançada. Eles são ótimos para fatos básicos, mas quando se trata de investigação histórica mais nuançada, em nível de doutorado, ainda não estão à altura”, disse Maria del Rio-Chanona, uma das co-autoras do artigo e professora associada de ciência da computação no University College London.
Os pesquisadores compartilharam com o TechCrunch exemplos de questões históricas que os LLMs erraram. Por exemplo, o GPT-4 Turbo foi questionado se a armadura de escamas estava presente durante um período específico do Egito antigo. O LLM respondeu que sim, mas a tecnologia só apareceu no Egito 1.500 anos depois.
Por que os LLMs apresentam dificuldades em responder a questões históricas técnicas, enquanto conseguem lidar bem com perguntas complexas sobre programação? Del Rio-Chanona informou ao TechCrunch que isso provavelmente ocorre porque os LLMs tendem a extrapolar a partir de dados históricos muito proeminentes, encontrando dificuldade em recuperar conhecimentos históricos mais obscuros.
Por exemplo, os pesquisadores perguntaram ao GPT-4 se o Egito antigo tinha um exército profissional permanente durante um determinado período histórico. Embora a resposta correta seja não, o LLM respondeu incorretamente que sim. Isso provavelmente acontece porque há muita informação pública sobre outros impérios antigos, como a Pérsia, terem exércitos permanentes.
“Se você escuta A e B 100 vezes, e C 1 vez, e depois é questionado sobre C, pode acabar apenas lembrando de A e B e tentando extrapolar a partir disso,” disse del Rio-Chanona.
Os pesquisadores também identificaram outras tendências, incluindo que os modelos da OpenAI e Llama tiveram um desempenho inferior em certas regiões, como a África subsaariana, sugerindo potenciais vieses em seus dados de treinamento.
Os resultados mostram que os LLMs ainda não são um substituto para humanos em certos domínios, afirmou Peter Turchin, que liderou o estudo e é membro do corpo docente do CSH.
Mas os pesquisadores ainda estão esperançosos de que os LLMs possam ajudar os historiadores no futuro. Eles estão trabalhando para aprimorar seu benchmark, incluindo mais dados de regiões sub-representadas e adicionando questões mais complexas.
“No geral, embora nossos resultados destaquem áreas onde os LLMs precisam de melhorias, eles também sublinham o potencial desses modelos para auxiliar na pesquisa histórica,” diz o artigo.
Conteúdo relacionado
Criações de IA editadas por humanos podem ser provavelmente protegidas por direitos autorais nos EUA, afirma agência
[the_ad id="145565"] Nos EUA, criações geradas por IA — livros, filmes e assim por diante — que foram editadas por um ser humano provavelmente podem ser protegidas por direitos…
Ai2 lança o Tülu 3, um modelo totalmente open-source que supera o DeepSeek v3 e o GPT-4o com uma nova abordagem de pós-treinamento.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de liderança no setor. Saiba…
Microsoft lança Surface Pro e Laptop PCs com foco em Copilot, disponíveis com opções Snapdragon e Intel.
[the_ad id="145565"] Na quinta-feira, durante um evento em Nova York, a Microsoft apresentou duas novidades na linha de PCs Surface. O novo Surface Pro e o Surface Laptop…