Bolt42

Um dos novos modelos de IA de destaque que a Meta lançou no sábado, Maverick, ocupa o segundo lugar na LM Arena, um teste em que avaliadores humanos comparam as respostas dos modelos e escolhem suas preferidas. No entanto, parece que a versão do Maverick que a Meta disponibilizou na LM Arena é diferente da versão amplamente acessível aos desenvolvedores.

Como vários pesquisadores de IA notaram no X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de chat.” Um gráfico no site oficial do Llama revela, por sua vez, que os testes da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversação.”

Como já discutimos anteriormente, por várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, as empresas de IA geralmente não personalizaram ou ajustaram seus modelos para obter melhores resultados na LM Arena — ou pelo menos não admitiram fazer isso.

O problema em adaptar um modelo para um padrão, retê-lo e, em seguida, lançar uma variante “padrão” desse mesmo modelo é que isso dificulta para os desenvolvedores preverem exatamente como o modelo se comportará em contextos específicos. Também é enganoso. Idealmente, os benchmarks — apesar de serem extremamente inadequados — fornecem um instantâneo das forças e fraquezas de um único modelo em uma variedade de tarefas.

De fato, pesquisadores no X observaram diferenças marcantes no comportamento do Maverick baixável publicamente em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e fornecer respostas incrivelmente longas.

Entramos em contato com a Meta e com a Chatbot Arena, a organização que mantém a LM Arena, para comentários.


    14 + 18 =

    Bolt42