Bolt42

A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.

O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.

Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.

CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.


    dezoito − 18 =

    Bolt42