Bolt42

Os laboratórios de IA estão cada vez mais dependendo de plataformas de benchmarking crowdsourced, como o Chatbot Arena, para investigar os pontos fortes e fracos de seus modelos mais recentes. No entanto, alguns especialistas afirmam que há sérios problemas com essa abordagem, do ponto de vista ético e acadêmico.

Nos últimos anos, laboratórios, incluindo OpenAI, Google e Meta, têm recorrido a plataformas que recrutam usuários para ajudar a avaliar as capacidades dos modelos que serão lançados. Quando um modelo obtém uma pontuação favorável, o laboratório responsável frequentemente a destaca como evidência de uma melhoria significativa.

No entanto, essa é uma abordagem falha, segundo Emily Bender, professora de linguística da Universidade de Washington e co-autora do livro “The AI Con”. Bender critica especialmente o Chatbot Arena, que solicita a voluntários que acionem dois modelos anônimos e escolham a resposta que preferem.

“Para ser válido, um benchmark precisa medir algo específico e deve ter validade de construção — ou seja, deve haver evidências de que o construto de interesse esteja bem definido e que as medições realmente se relacionem com o construto,” disse Bender. “O Chatbot Arena não mostrou que votar em uma saída em vez de outra realmente correlaciona com preferências, como possam ser definidas.”

Asmelash Teka Hadgu, co-fundador da empresa de IA Lesan e associado do Instituto de Pesquisa em IA Distribuída, afirmou que acredita que benchmarks como o Chatbot Arena estão sendo “cooptados” por laboratórios de IA para “promover afirmações exageradas”. Hadgu apontou uma controvérsia recente envolvendo o modelo Llama 4 Maverick da Meta. A Meta aprimorou uma versão do Maverick para obter uma boa pontuação no Chatbot Arena, apenas para reter esse modelo em favor de lançar uma versão de desempenho inferior.

“Os benchmarks devem ser dinâmicos e não conjuntos de dados estáticos,” disse Hadgu, “distribuídos entre várias entidades independentes, como organizações ou universidades, e adaptados especificamente a casos de uso distintos, como educação, saúde e outros campos realizados por profissionais que usam esses [modelos] em seu trabalho.”

Hadgu e Kristine Gloria, que anteriormente liderou a Iniciativa de Tecnologias Emergentes e Inteligentes do Aspen Institute, também argumentaram que os avaliadores de modelos deveriam ser compensados por seu trabalho. Gloria afirmou que os laboratórios de IA deveriam aprender com os erros da indústria de rotulagem de dados, que é notória por suas práticas exploratórias de rotulagem. (Alguns laboratórios foram acusados do mesmo.)

“De modo geral, o processo de benchmarking crowdsourced é valioso e me lembra iniciativas de ciência cidadã,” disse Gloria. “Idealmente, ajuda a trazer perspectivas adicionais para oferecer maior profundidade tanto na avaliação quanto no ajuste de dados. Mas os benchmarks nunca devem ser a única métrica para avaliação. Com a indústria e a inovação avançando rapidamente, os benchmarks podem rapidamente se tornar não confiáveis.”

Matt Frederikson, CEO da Gray Swan AI, que realiza campanhas de red teaming crowdsourced para modelos, disse que os voluntários são atraídos para a plataforma da Gray Swan por uma gama de razões, incluindo “aprender e praticar novas habilidades.” (A Gray Swan também oferece prêmios em dinheiro para alguns testes.) No entanto, ele reconheceu que benchmarks públicos “não são um substituto” para avaliações “particulares pagas”.

“[D]esenvolvedores também precisam depender de benchmarks internos, equipes de red algorithmic e red teamers contratados que podem adotar uma abordagem mais aberta ou trazer expertise específica de domínio,” disse Frederikson. “É importante que tanto os desenvolvedores de modelos quanto os criadores de benchmarks, crowdsourced ou não, comuniquem resultados claramente para aqueles que os seguem e sejam responsivos quando forem questionados.”

Alex Atallah, CEO do mercado de modelos OpenRouter, que recentemente se juntou à OpenAI para conceder aos usuários acesso antecipado aos modelos GPT-4.1 da OpenAI, disse que apenas os testes e benchmarkings abertos de modelos “não são suficientes.” O mesmo ocorreu com Wei-Lin Chiang, um estudante de doutorado em IA da UC Berkeley e um dos fundadores do LMArena, que mantém o Chatbot Arena.

“Nós certamente apoiamos o uso de outros testes,” disse Chiang. “Nosso objetivo é criar um espaço confiável e aberto que meça as preferências de nossa comunidade sobre diferentes modelos de IA.”

Chiang afirmou que incidentes como a discrepância de benchmark do Maverick não são resultado de uma falha no design do Chatbot Arena, mas sim de laboratórios mal interpretando sua política. O LM Arena tomou medidas para evitar que discrepâncias futuras ocorram, disse Chiang, incluindo a atualização de suas políticas para “reforçar nosso compromisso com avaliações justas e reproduzíveis.”

“Nossa comunidade não está aqui como voluntários ou testadores de modelos,” disse Chiang. “As pessoas usam o LM Arena porque lhe proporcionamos um espaço aberto e transparente para se engajar com a IA e dar feedback coletivo. Enquanto o leaderboard refletir fielmente a voz da comunidade, nós aplaudimos sua divulgação.”


    sete + 19 =

    Bolt42