Executivo da Meta nega que a empresa tenha aumentado artificialmente os scores de benchmark do Llama 4.

Um executivo da Meta negou na segunda-feira um boato de que a empresa ajustou seus novos modelos de IA para se apresentar bem em benchmarks específicos, enquanto ocultava as fraquezas dos modelos.

O executivo, Ahmad Al-Dahle, VP de IA generativa da Meta, disse em uma publicação no X que não é “simplesmente verdade” que a Meta treinou seus modelos Llama 4 Maverick e Llama 4 Scout em “conjuntos de teste”. Em benchmarks de IA, conjuntos de teste são coleções de dados usadas para avaliar o desempenho de um modelo após seu treinamento. Treinar em um conjunto de teste poderia inflar enganosamente as pontuações de benchmark de um modelo, fazendo o modelo parecer mais capaz do que realmente é.

No final de semana, um boato não fundamentado de que a Meta artificialmente aumentou os resultados de benchmark de seus novos modelos começou a circular no X e no Reddit. O boato parece ter se originado de uma publicação em um site de mídia social chinês de um usuário que declarou ter se demitido da Meta em protesto pelas práticas de benchmarking da empresa.

Relatos de que Maverick e Scout desempenham mal em certas tarefas alimentaram o boato, assim como a decisão da Meta de usar uma versão experimental e não lançada do Maverick para obter melhores pontuações no benchmark LM Arena. Pesquisadores no X observaram diferenças marcantes no comportamento do Maverick disponível para download público em comparação com o modelo hospedado no LM Arena.

Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” do Maverick e Scout em diferentes provedores de nuvem que hospedam os modelos.

“Como lançamos os modelos assim que estavam prontos, esperamos que leve alguns dias para que todas as implementações públicas sejam ajustadas,” disse Al-Dahle. “Continuaremos trabalhando na correção de bugs e na integração de parceiros.”

Conteúdo relacionado

Inteligência artificial

Executivo da Meta nega que a empresa tenha aumentado artificialmente os scores de benchmark do Llama 4.

Conteúdo relacionado

Seguro de Responsabilidade Civil para IA: O Próximo Passo para Proteger Negócios de Falhas em IA

Voice AI That Delivers: New TTS Model Increases Sales by 15% for Leading Brands in Portuguese

Google afirma que a prévia do Gemini 2.5 Pro supera o DeepSeek R1 e o Grok 3 Beta em desempenho de programação.