Até mesmo algumas das melhores IA não conseguem superar este novo parâmetro.

A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.

O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.

Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.

CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.

Conteúdo relacionado

BusinessInteligência artificial

Até mesmo algumas das melhores IA não conseguem superar este novo parâmetro.

Conteúdo relacionado

ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.

Tudo o que você precisa saber sobre o chatbot de IA