Um executivo da Meta negou na segunda-feira um boato de que a empresa ajustou seus novos modelos de IA para se apresentar bem em benchmarks específicos, enquanto ocultava as fraquezas dos modelos.
O executivo, Ahmad Al-Dahle, VP de IA generativa da Meta, disse em uma publicação no X que não é “simplesmente verdade” que a Meta treinou seus modelos Llama 4 Maverick e Llama 4 Scout em “conjuntos de teste”. Em benchmarks de IA, conjuntos de teste são coleções de dados usadas para avaliar o desempenho de um modelo após seu treinamento. Treinar em um conjunto de teste poderia inflar enganosamente as pontuações de benchmark de um modelo, fazendo o modelo parecer mais capaz do que realmente é.
No final de semana, um boato não fundamentado de que a Meta artificialmente aumentou os resultados de benchmark de seus novos modelos começou a circular no X e no Reddit. O boato parece ter se originado de uma publicação em um site de mídia social chinês de um usuário que declarou ter se demitido da Meta em protesto pelas práticas de benchmarking da empresa.
Relatos de que Maverick e Scout desempenham mal em certas tarefas alimentaram o boato, assim como a decisão da Meta de usar uma versão experimental e não lançada do Maverick para obter melhores pontuações no benchmark LM Arena. Pesquisadores no X observaram diferenças marcantes no comportamento do Maverick disponível para download público em comparação com o modelo hospedado no LM Arena.
Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” do Maverick e Scout em diferentes provedores de nuvem que hospedam os modelos.
“Como lançamos os modelos assim que estavam prontos, esperamos que leve alguns dias para que todas as implementações públicas sejam ajustadas,” disse Al-Dahle. “Continuaremos trabalhando na correção de bugs e na integração de parceiros.”
Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…