A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.
O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.
Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.
CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.
Conteúdo relacionado
O projeto Stargate da OpenAI supostamente não tem o financiamento necessário.
[the_ad id="145565"] Stargate — o enorme projeto de infraestrutura para construir centros de dados para a OpenAI nos EUA — carece de um plano totalmente desenvolvido e ainda…
Mark Zuckerberg afirma que a Meta terá 1,3 milhões de GPUs para IA até o final do ano.
[the_ad id="145565"] O CEO da Meta, Mark Zuckerberg, afirmou que a empresa planeja aumentar significativamente seus gastos de capital este ano, buscando acompanhar os…
O novo recurso de Citações da Anthropic visa reduzir erros de IA.
[the_ad id="145565"] Em um anúncio possivelmente feito para desviar a atenção do Operador da OpenAI, a Anthropic revelou na quinta-feira um novo recurso para seu API de…