No início desta semana, a Meta enfrentou dificuldades ao usar uma versão experimental e ainda não lançada de seu modelo Llama 4 Maverick para atingir uma pontuação alta em um benchmark colaborativo, o LM Arena. O incidente levou os mantenedores do LM Arena a se desculparem, mudarem suas políticas e avaliarem o Maverick em sua versão não modificada e original.
Acontece que não é muito competitivo.
O Maverick não modificado, “Llama-4-Maverick-17B-128E-Instruct,” foi classificado abaixo de modelos, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google até sexta-feira. Muitos desses modelos já têm meses de existência.
A versão lançada do Llama 4 foi adicionada ao LMArena após a descoberta de que eles haviam trapaceado, mas você provavelmente não viu isso porque precisa rolar até o 32º lugar, que é onde ele se classifica pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 11 de abril de 2025
Por que o desempenho fraco? O Maverick experimental da Meta, Llama-4-Maverick-03-26-Experimental, foi “otimizado para conversação,” explicou a empresa em um gráfico publicado no último sábado. Essas otimizações aparentemente funcionaram bem no LM Arena, que conta com avaliadores humanos que comparam as saídas dos modelos e escolhem suas preferidas.
Como já discutimos antes, por várias razões, o LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, adaptar um modelo a um benchmark — além de ser enganoso — torna desafiador para os desenvolvedores prever exatamente como o modelo se sairá em diferentes contextos.
Em uma declaração, um porta-voz da Meta informou ao TechCrunch que a Meta experimenta com “todos os tipos de variantes personalizadas.”
“‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat com a qual experimentamos e que também se sai bem no LMArena,” disse o porta-voz. “Agora, lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos empolgados para ver o que eles irão construir e aguardamos seu feedback contínuo.”
Conteúdo relacionado
O novo modelo R1 de IA da DeepSeek, otimizado para rodar em uma única GPU.
[the_ad id="145565"] O modelo de raciocínio AI R1 atualizado da DeepSeek pode estar recebendo a maior parte da atenção da comunidade de IA esta semana. Mas o laboratório de IA…
O novo recurso da Perplexity pode gerar planilhas, dashboards e muito mais.
[the_ad id="145565"] A Perplexity, o mecanismo de busca impulsionado por IA que desafia o Google, lançou na quinta-feira o Perplexity Labs, uma ferramenta para assinantes do…
O procurador-geral de Delaware supostamente contrata um banco para avaliar o plano de reestruturação da OpenAI.
[the_ad id="145565"] O procurador-geral de Delaware está contratando um banco de investimento para aconselhar sobre a conversão lucrativa da OpenAI, conforme reportado pelo…