Até mesmo algumas das melhores IA não conseguem superar este novo parâmetro.

A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.

O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.

Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.

CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.

Conteúdo relacionado

BusinessInteligência artificial

Até mesmo algumas das melhores IA não conseguem superar este novo parâmetro.

Conteúdo relacionado

Pesquisador de IA renomado lança startup polêmica para substituir todos os trabalhadores humanos em todos os lugares

ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.