Por que o QI é um teste inadequado para a IA

Durante uma recente aparição na imprensa, o CEO da OpenAI, Sam Altman, afirmou que observou a “inteligência” da IA melhorar rapidamente nos últimos anos.

“De maneira muito aproximada, parece para mim que — isso não é cientificamente preciso, é apenas uma sensação ou resposta espiritual — a cada ano, avançamos uma desviada padrão de QI,” disse Altman.

Altman não é o primeiro a usar o QI, uma estimativa da inteligência de uma pessoa, como um parâmetro para o progresso da IA. Influenciadores de IA nas redes sociais têm aplicado testes de QI em modelos e ranqueado os resultados.

No entanto, muitos especialistas afirmam que o QI é uma medida inadequada das capacidades de um modelo — e uma medida enganosa.

“É muito tentador usar as mesmas medidas que usamos para humanos para descrever capacidades ou progresso, mas isso é como comparar maçãs com laranjas,” disse Sandra Wachter, pesquisadora que estuda tecnologia e regulamentação na Universidade de Oxford, ao TechCrunch.

Em seus comentários na coletiva, Altman associou o QI à inteligência. No entanto, os testes de QI são medidas relativas — não objetivas — de certos tipos de inteligência. Existe algum consenso de que o QI é um teste razoável para lógica e raciocínio abstrato. Porém, não mede a inteligência prática — saber como fazer as coisas funcionarem — e é, no máximo, uma instantânea.

“O QI é uma ferramenta para medir capacidades humanas — uma medida contestada, é verdade — baseada no que os cientistas acreditam que a inteligência humana parece ser,” destacou Wachter. “Mas você não pode usar a mesma medida para descrever as capacidades de IA. Um carro é mais rápido que os humanos, e um submarino é melhor em mergulhar. Mas isso não significa que carros ou submarinos superam a inteligência humana. Você está confundindo um aspecto do desempenho com a inteligência humana, que é muito mais complexa.”

Para se sair bem em um teste de QI, cujas origens alguns historiadores rastreiam até a eugenia, a teoria científica amplamente descreditada de que as pessoas podem ser melhoradas por meio da seleção genética, o testando deve ter uma memória de trabalho forte e conhecimento das normas culturais ocidentais. Isso, claro, convida a oportunidade para viés, e é por isso que um psicólogo chamou os testes de QI de “modelos mecânicos ideologicamente corrompíveis” da inteligência.

Que um modelo possa se sair bem em um teste de QI indica mais sobre as falhas do teste do que sobre o desempenho do modelo, de acordo com Os Keyes, candidato a doutorado da Universidade de Washington que estuda IA ética.

“[Esses] testes são bastante fáceis de manipular se você tiver uma quantidade praticamente infinita de memória e paciência,” disse Keyes. “Os testes de QI são uma maneira altamente limitada de medir cognição, sentiência e inteligência, algo que sabemos desde antes da invenção do computador digital.”

A IA provavelmente tem uma vantagem injusta em testes de QI também, considerando que os modelos possuem enormes quantidades de memória e conhecimento internalizado à sua disposição. Muitas vezes, os modelos são treinados com dados da web pública, que está cheia de perguntas exemplo retiradas de testes de QI.

“Os testes tendem a repetir padrões muito semelhantes — uma maneira bastante infalível de aumentar seu QI é praticar fazer testes de QI, que é essencialmente o que todo [modelo] fez,” disse Mike Cook, pesquisador associado do King’s College London especializado em IA. “Quando eu aprendo algo, não é inserido em meu cérebro com perfeita clareza 1 milhão de vezes, ao contrário da IA, e eu não consigo processá-lo sem ruído ou perda de sinal, também.”

Em última análise, os testes de QI — tão tendenciosos como são — foram projetados para humanos, acrescentou Cook — destinados a avaliar habilidades gerais de resolução de problemas. Eles são inadequados para uma tecnologia que se aproxima da resolução de problemas de maneira muito diferente da humana.

“Um corvo pode ser capaz de usar uma ferramenta para recuperar um lanche de uma caixa, mas isso não significa que ele pode ser aceito em Harvard,” disse Cook. “Quando eu resolvo um problema de matemática, meu cérebro também lida com sua capacidade de ler as palavras na página corretamente, para não pensar sobre as compras que preciso fazer a caminho de casa, ou se está muito frio na sala agora. Em outras palavras, os cérebros humanos lidam com muito mais coisas quando resolvem um problema — qualquer problema, testes de QI ou outros — e fazem isso com muito menos ajuda [do que a IA].”

Tudo isso aponta para a necessidade de melhores testes de IA, disse Heidy Khlaaf, cientista-chefe de IA do AI Now Institute, ao TechCrunch.

“Na história da computação, nunca comparamos as habilidades de computação com as humanas precisamente porque a natureza da computação significa que os sistemas sempre puderam realizar tarefas já além da capacidade humana,” disse Khlaaf. “Essa ideia de que comparamos diretamente o desempenho dos sistemas com as habilidades humanas é um fenômeno recente, muito contestado, e que envolve a controvérsia das referências sempre expansivas — e móveis — que estão sendo criadas para avaliar os sistemas de IA.”