A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.
O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.
Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.
CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.
Conteúdo relacionado
Stargate usará energia solar e baterias para financiar empreendimento de IA de $100 bilhões
[the_ad id="145565"] O enorme empreendimento conjunto Stargate, avaliado em $100 bilhões, será, ao menos em parte, alimentado por energia solar e baterias. As instalações de…
OpenAI: Aumentar o “tempo de reflexão” do modelo ajuda a combater vulnerabilidades cibernéticas emergentes.
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdos exclusivos sobre a cobertura líder da indústria em…
Ingressos para o Disrupt 2025 já à venda: As tarifas mais baixas de todos os tempos
[the_ad id="145565"] Estamos começando mais cedo do que nunca! Os ingressos para o TechCrunch Disrupt 2025 já estão à venda. Não perca a chance de garantir os melhores preços…