Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos.

Um dos novos modelos de IA de destaque que a Meta lançou no sábado, Maverick, ocupa o segundo lugar na LM Arena, um teste em que avaliadores humanos comparam as respostas dos modelos e escolhem suas preferidas. No entanto, parece que a versão do Maverick que a Meta disponibilizou na LM Arena é diferente da versão amplamente acessível aos desenvolvedores.

Como vários pesquisadores de IA notaram no X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de chat.” Um gráfico no site oficial do Llama revela, por sua vez, que os testes da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversação.”

Como já discutimos anteriormente, por várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, as empresas de IA geralmente não personalizaram ou ajustaram seus modelos para obter melhores resultados na LM Arena — ou pelo menos não admitiram fazer isso.

O problema em adaptar um modelo para um padrão, retê-lo e, em seguida, lançar uma variante “padrão” desse mesmo modelo é que isso dificulta para os desenvolvedores preverem exatamente como o modelo se comportará em contextos específicos. Também é enganoso. Idealmente, os benchmarks — apesar de serem extremamente inadequados — fornecem um instantâneo das forças e fraquezas de um único modelo em uma variedade de tarefas.

De fato, pesquisadores no X observaram diferenças marcantes no comportamento do Maverick baixável publicamente em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e fornecer respostas incrivelmente longas.

Ok, o Llama 4 está definitivamente um pouco ajustado, lol, o que é esta cidade dos yaps pic.twitter.com/y3GvhbVz65

— Nathan Lambert (@natolambert) 6 de abril de 2025

Por algum motivo, o modelo Llama 4 na Arena usa muito mais Emojis

no together.ai, parece melhor: pic.twitter.com/f74ODX4zTt

— Tech Dev Notes (@techdevnotes) 6 de abril de 2025

Entramos em contato com a Meta e com a Chatbot Arena, a organização que mantém a LM Arena, para comentários.

Conteúdo relacionado

BusinessInteligência artificial

A OpenAI estaria considerando comprar a startup de hardware de IA de Jony Ive e Sam Altman

[the_ad id="145565"] Diz-se que a OpenAI discutiu a aquisição da startup de hardware de IA que o ex-líder de design da Apple, Jony Ive, está construindo com o CEO da OpenAI,…

BusinessInteligência artificial

A IBM adquire a consultoria Hakkoda em continuidade ao seu investimento em IA

[the_ad id="145565"] Na segunda-feira, a IBM anunciou a aquisição da Hakkoda, uma consultoria de dados e IA com sede em Nova York, por um valor não divulgado. Mohamad Ali, SVP…

BusinessInteligência artificial

DeepSeek agita a indústria de IA: Por que o próximo salto da IA pode não vir de mais dados, mas de mais computação na inferência.

[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder da indústria. Saiba Mais…