Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos.

Um dos novos modelos de IA de destaque que a Meta lançou no sábado, Maverick, ocupa o segundo lugar na LM Arena, um teste em que avaliadores humanos comparam as respostas dos modelos e escolhem suas preferidas. No entanto, parece que a versão do Maverick que a Meta disponibilizou na LM Arena é diferente da versão amplamente acessível aos desenvolvedores.

Como vários pesquisadores de IA notaram no X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de chat.” Um gráfico no site oficial do Llama revela, por sua vez, que os testes da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversação.”

Como já discutimos anteriormente, por várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, as empresas de IA geralmente não personalizaram ou ajustaram seus modelos para obter melhores resultados na LM Arena — ou pelo menos não admitiram fazer isso.

O problema em adaptar um modelo para um padrão, retê-lo e, em seguida, lançar uma variante “padrão” desse mesmo modelo é que isso dificulta para os desenvolvedores preverem exatamente como o modelo se comportará em contextos específicos. Também é enganoso. Idealmente, os benchmarks — apesar de serem extremamente inadequados — fornecem um instantâneo das forças e fraquezas de um único modelo em uma variedade de tarefas.

De fato, pesquisadores no X observaram diferenças marcantes no comportamento do Maverick baixável publicamente em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e fornecer respostas incrivelmente longas.

Ok, o Llama 4 está definitivamente um pouco ajustado, lol, o que é esta cidade dos yaps pic.twitter.com/y3GvhbVz65

— Nathan Lambert (@natolambert) 6 de abril de 2025

Por algum motivo, o modelo Llama 4 na Arena usa muito mais Emojis

no together.ai, parece melhor: pic.twitter.com/f74ODX4zTt

— Tech Dev Notes (@techdevnotes) 6 de abril de 2025