Um dos novos modelos de IA de destaque que a Meta lançou no sábado, Maverick, ocupa o segundo lugar na LM Arena, um teste em que avaliadores humanos comparam as respostas dos modelos e escolhem suas preferidas. No entanto, parece que a versão do Maverick que a Meta disponibilizou na LM Arena é diferente da versão amplamente acessível aos desenvolvedores.
Como vários pesquisadores de IA notaram no X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de chat.” Um gráfico no site oficial do Llama revela, por sua vez, que os testes da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversação.”
Como já discutimos anteriormente, por várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, as empresas de IA geralmente não personalizaram ou ajustaram seus modelos para obter melhores resultados na LM Arena — ou pelo menos não admitiram fazer isso.
O problema em adaptar um modelo para um padrão, retê-lo e, em seguida, lançar uma variante “padrão” desse mesmo modelo é que isso dificulta para os desenvolvedores preverem exatamente como o modelo se comportará em contextos específicos. Também é enganoso. Idealmente, os benchmarks — apesar de serem extremamente inadequados — fornecem um instantâneo das forças e fraquezas de um único modelo em uma variedade de tarefas.
De fato, pesquisadores no X observaram diferenças marcantes no comportamento do Maverick baixável publicamente em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e fornecer respostas incrivelmente longas.
Ok, o Llama 4 está definitivamente um pouco ajustado, lol, o que é esta cidade dos yaps pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 6 de abril de 2025
Por algum motivo, o modelo Llama 4 na Arena usa muito mais Emojis
no together.ai, parece melhor: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 6 de abril de 2025
Entramos em contato com a Meta e com a Chatbot Arena, a organização que mantém a LM Arena, para comentários.
Conteúdo relacionado
Agora é a vez da ByteDance, mãe do TikTok, para uma IA de raciocínio: apresentando o Seed-Thinking-v1.5!
Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba……
O acesso a futuros modelos de IA na API da OpenAI pode exigir uma identificação verificada.
A OpenAI pode em breve exigir que as organizações completem um processo de verificação de identidade para acessar certos modelos de IA futuros, de acordo…
Alexa+ da Amazon: Uma Nova Era de Assistentes Pessoais Potencializados por IA
Assistentes pessoais impulsionados por IA tornaram-se essenciais em nossas vidas aceleradas, ajudando-nos a gerenciar tarefas, controlar dispositivos…