Um executivo da Meta negou na segunda-feira um boato de que a empresa ajustou seus novos modelos de IA para se apresentar bem em benchmarks específicos, enquanto ocultava as fraquezas dos modelos.
O executivo, Ahmad Al-Dahle, VP de IA generativa da Meta, disse em uma publicação no X que não é “simplesmente verdade” que a Meta treinou seus modelos Llama 4 Maverick e Llama 4 Scout em “conjuntos de teste”. Em benchmarks de IA, conjuntos de teste são coleções de dados usadas para avaliar o desempenho de um modelo após seu treinamento. Treinar em um conjunto de teste poderia inflar enganosamente as pontuações de benchmark de um modelo, fazendo o modelo parecer mais capaz do que realmente é.
No final de semana, um boato não fundamentado de que a Meta artificialmente aumentou os resultados de benchmark de seus novos modelos começou a circular no X e no Reddit. O boato parece ter se originado de uma publicação em um site de mídia social chinês de um usuário que declarou ter se demitido da Meta em protesto pelas práticas de benchmarking da empresa.
Relatos de que Maverick e Scout desempenham mal em certas tarefas alimentaram o boato, assim como a decisão da Meta de usar uma versão experimental e não lançada do Maverick para obter melhores pontuações no benchmark LM Arena. Pesquisadores no X observaram diferenças marcantes no comportamento do Maverick disponível para download público em comparação com o modelo hospedado no LM Arena.
Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” do Maverick e Scout em diferentes provedores de nuvem que hospedam os modelos.
“Como lançamos os modelos assim que estavam prontos, esperamos que leve alguns dias para que todas as implementações públicas sejam ajustadas,” disse Al-Dahle. “Continuaremos trabalhando na correção de bugs e na integração de parceiros.”
Conteúdo relacionado
OpenAI lança um par de modelos de raciocínio em IA, o3 e o4-mini.
[the_ad id="145565"] A OpenAI anunciou na quarta-feira o lançamento do o3 e do o4-mini, novos modelos de raciocínio AI projetados para pausar e trabalhar através das perguntas…
Parceiro da OpenAI diz que teve tempo relativamente curto para testar o modelo de IA o3 da empresa
[the_ad id="145565"] Uma organização com a qual a OpenAI frequentemente colabora para investigar as capacidades de seus modelos de IA e avaliá-los quanto à segurança, a Metr,…
A OpenAI está supostamente em negociações para comprar a Codeium por US$ 3 bilhões, com novidades esperadas ainda esta semana.
[the_ad id="145565"] A Codeium, criadora da popular ferramenta assistente de codificação AI Windsurf, está em negociações para ser adquirida pela OpenAI por cerca de US$ 3…