No início desta semana, a Meta enfrentou dificuldades ao usar uma versão experimental e ainda não lançada de seu modelo Llama 4 Maverick para atingir uma pontuação alta em um benchmark colaborativo, o LM Arena. O incidente levou os mantenedores do LM Arena a se desculparem, mudarem suas políticas e avaliarem o Maverick em sua versão não modificada e original.
Acontece que não é muito competitivo.
O Maverick não modificado, “Llama-4-Maverick-17B-128E-Instruct,” foi classificado abaixo de modelos, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google até sexta-feira. Muitos desses modelos já têm meses de existência.
A versão lançada do Llama 4 foi adicionada ao LMArena após a descoberta de que eles haviam trapaceado, mas você provavelmente não viu isso porque precisa rolar até o 32º lugar, que é onde ele se classifica pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 11 de abril de 2025
Por que o desempenho fraco? O Maverick experimental da Meta, Llama-4-Maverick-03-26-Experimental, foi “otimizado para conversação,” explicou a empresa em um gráfico publicado no último sábado. Essas otimizações aparentemente funcionaram bem no LM Arena, que conta com avaliadores humanos que comparam as saídas dos modelos e escolhem suas preferidas.
Como já discutimos antes, por várias razões, o LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, adaptar um modelo a um benchmark — além de ser enganoso — torna desafiador para os desenvolvedores prever exatamente como o modelo se sairá em diferentes contextos.
Em uma declaração, um porta-voz da Meta informou ao TechCrunch que a Meta experimenta com “todos os tipos de variantes personalizadas.”
“‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat com a qual experimentamos e que também se sai bem no LMArena,” disse o porta-voz. “Agora, lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos empolgados para ver o que eles irão construir e aguardamos seu feedback contínuo.”
Conteúdo relacionado
O acesso a futuros modelos de IA na API da OpenAI pode exigir uma identificação verificada.
[the_ad id="145565"] A OpenAI pode em breve exigir que as organizações completem um processo de verificação de identidade para acessar certos modelos de IA futuros, de acordo…
Alexa+ da Amazon: Uma Nova Era de Assistentes Pessoais Potencializados por IA
[the_ad id="145565"] Assistentes pessoais impulsionados por IA tornaram-se essenciais em nossas vidas aceleradas, ajudando-nos a gerenciar tarefas, controlar dispositivos…
Os palestrantes do GamesBeat Summit 2025 nos ajudarão a retomar o caminho do crescimento | The DeanBeat
[the_ad id="145565"] Já está na hora de eu falar sobre alguns dos excelentes palestrantes que temos programados para o GamesBeat Summit 2025, que acontecerá de 19 a 20 de maio…