A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.
O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.
Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.
CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.
Conteúdo relacionado
Pesquisador de IA renomado lança startup polêmica para substituir todos os trabalhadores humanos em todos os lugares
[the_ad id="145565"] De vez em quando, uma startup do Vale do Silício lança uma missão tão “absurdamente” descrita que é difícil discernir se a startup é real ou apenas uma…
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…