No início desta semana, a Meta enfrentou dificuldades ao usar uma versão experimental e ainda não lançada de seu modelo Llama 4 Maverick para atingir uma pontuação alta em um benchmark colaborativo, o LM Arena. O incidente levou os mantenedores do LM Arena a se desculparem, mudarem suas políticas e avaliarem o Maverick em sua versão não modificada e original.
Acontece que não é muito competitivo.
O Maverick não modificado, “Llama-4-Maverick-17B-128E-Instruct,” foi classificado abaixo de modelos, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google até sexta-feira. Muitos desses modelos já têm meses de existência.
A versão lançada do Llama 4 foi adicionada ao LMArena após a descoberta de que eles haviam trapaceado, mas você provavelmente não viu isso porque precisa rolar até o 32º lugar, que é onde ele se classifica pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 11 de abril de 2025
Por que o desempenho fraco? O Maverick experimental da Meta, Llama-4-Maverick-03-26-Experimental, foi “otimizado para conversação,” explicou a empresa em um gráfico publicado no último sábado. Essas otimizações aparentemente funcionaram bem no LM Arena, que conta com avaliadores humanos que comparam as saídas dos modelos e escolhem suas preferidas.
Como já discutimos antes, por várias razões, o LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, adaptar um modelo a um benchmark — além de ser enganoso — torna desafiador para os desenvolvedores prever exatamente como o modelo se sairá em diferentes contextos.
Em uma declaração, um porta-voz da Meta informou ao TechCrunch que a Meta experimenta com “todos os tipos de variantes personalizadas.”
“‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat com a qual experimentamos e que também se sai bem no LMArena,” disse o porta-voz. “Agora, lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos empolgados para ver o que eles irão construir e aguardamos seu feedback contínuo.”
Conteúdo relacionado
FLUX.1 Kontext permite a geração de imagens em contexto para pipelines de IA empresarial.
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais…
Elon se afasta do DOGE e o Vale do Silício entra na fase de ‘descoberta’
[the_ad id="145565"] Elon Musk anunciou oficialmente que está se afastando como um funcionário especial do governo dos EUA e o chefe de fato do Departamento de Eficiência…
Startup de IA com voz emotiva Hume lança novo modelo EVI 3 com criação rápida de vozes personalizadas.
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre coberturas líderes da indústria em IA. Saiba…