Um executivo da Meta negou na segunda-feira um boato de que a empresa ajustou seus novos modelos de IA para se apresentar bem em benchmarks específicos, enquanto ocultava as fraquezas dos modelos.
O executivo, Ahmad Al-Dahle, VP de IA generativa da Meta, disse em uma publicação no X que não é “simplesmente verdade” que a Meta treinou seus modelos Llama 4 Maverick e Llama 4 Scout em “conjuntos de teste”. Em benchmarks de IA, conjuntos de teste são coleções de dados usadas para avaliar o desempenho de um modelo após seu treinamento. Treinar em um conjunto de teste poderia inflar enganosamente as pontuações de benchmark de um modelo, fazendo o modelo parecer mais capaz do que realmente é.
No final de semana, um boato não fundamentado de que a Meta artificialmente aumentou os resultados de benchmark de seus novos modelos começou a circular no X e no Reddit. O boato parece ter se originado de uma publicação em um site de mídia social chinês de um usuário que declarou ter se demitido da Meta em protesto pelas práticas de benchmarking da empresa.
Relatos de que Maverick e Scout desempenham mal em certas tarefas alimentaram o boato, assim como a decisão da Meta de usar uma versão experimental e não lançada do Maverick para obter melhores pontuações no benchmark LM Arena. Pesquisadores no X observaram diferenças marcantes no comportamento do Maverick disponível para download público em comparação com o modelo hospedado no LM Arena.
Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” do Maverick e Scout em diferentes provedores de nuvem que hospedam os modelos.
“Como lançamos os modelos assim que estavam prontos, esperamos que leve alguns dias para que todas as implementações públicas sejam ajustadas,” disse Al-Dahle. “Continuaremos trabalhando na correção de bugs e na integração de parceiros.”
Conteúdo relacionado
Voice AI That Delivers: New TTS Model Increases Sales by 15% for Leading Brands in Portuguese
[the_ad id="145565"] Certainly! Here's the rewritten content in Portuguese while retaining the HTML tags: <div> <div id="boilerplate_2682874"…
Google afirma que a prévia do Gemini 2.5 Pro supera o DeepSeek R1 e o Grok 3 Beta em desempenho de programação.
[the_ad id="145565"] Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira…
AMD contrata os funcionários por trás da Untether AI
[the_ad id="145565"] A AMD continua sua onda de aquisições. A gigante de semicondutores AMD adquiriu a equipe por trás da Untether AI, uma startup que desenvolve chips de…