No início desta semana, a Meta enfrentou dificuldades ao usar uma versão experimental e ainda não lançada de seu modelo Llama 4 Maverick para atingir uma pontuação alta em um benchmark colaborativo, o LM Arena. O incidente levou os mantenedores do LM Arena a se desculparem, mudarem suas políticas e avaliarem o Maverick em sua versão não modificada e original.
Acontece que não é muito competitivo.
O Maverick não modificado, “Llama-4-Maverick-17B-128E-Instruct,” foi classificado abaixo de modelos, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google até sexta-feira. Muitos desses modelos já têm meses de existência.
A versão lançada do Llama 4 foi adicionada ao LMArena após a descoberta de que eles haviam trapaceado, mas você provavelmente não viu isso porque precisa rolar até o 32º lugar, que é onde ele se classifica pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 11 de abril de 2025
Por que o desempenho fraco? O Maverick experimental da Meta, Llama-4-Maverick-03-26-Experimental, foi “otimizado para conversação,” explicou a empresa em um gráfico publicado no último sábado. Essas otimizações aparentemente funcionaram bem no LM Arena, que conta com avaliadores humanos que comparam as saídas dos modelos e escolhem suas preferidas.
Como já discutimos antes, por várias razões, o LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, adaptar um modelo a um benchmark — além de ser enganoso — torna desafiador para os desenvolvedores prever exatamente como o modelo se sairá em diferentes contextos.
Em uma declaração, um porta-voz da Meta informou ao TechCrunch que a Meta experimenta com “todos os tipos de variantes personalizadas.”
“‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat com a qual experimentamos e que também se sai bem no LMArena,” disse o porta-voz. “Agora, lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos empolgados para ver o que eles irão construir e aguardamos seu feedback contínuo.”
Conteúdo relacionado
Os debates sobre a avaliação de IA chegaram aos Pokémon
[the_ad id="145565"] Nem mesmo Pokémon está a salvo da controvérsia de benchmarking de IA. Na semana passada, uma publicação no X se tornou viral, afirmando que o mais recente…
RLWRLD levanta $14,8 milhões para desenvolver um modelo fundamental para robótica.
[the_ad id="145565"] À medida que a robótica avançou, a indústria tem adotado cada vez mais robôs para automatizar diversas tarefas repetitivas. Em 2023, mais de 540.000 novos…
Xaba levanta $6 milhões da Hitachi Ventures para desenvolver cérebros sintéticos para robôs industriais
[the_ad id="145565"] Xaba, uma startup que desenvolve cérebros sintéticos para robôs industriais sem necessidade de programação, anunciou que garantiu um investimento inicial…