A organização sem fins lucrativos Center for AI Safety (CAIS) e a Scale AI, uma empresa que fornece uma variedade de serviços de rotulação de dados e desenvolvimento de IA, lançaram um desafio novo e exigente para sistemas de IA de ponta.
O benchmark, intitulado Último Exame da Humanidade, inclui milhares de perguntas crowdsourced abordando assuntos como matemática, humanidades e ciências naturais. Para tornar a avaliação mais desafiadora, as perguntas vêm em múltiplos formatos, incluindo aqueles que incorporam diagramas e imagens.
Em um estudo preliminar, nenhum sistema de IA insignia disponível publicamente conseguiu marcar mais de 10% no Último Exame da Humanidade.
CAIS e Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam “explorar mais a fundo as variações” e avaliar novos modelos de IA.
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…