Bolt42

No início desta semana, a Meta enfrentou dificuldades ao usar uma versão experimental e ainda não lançada de seu modelo Llama 4 Maverick para atingir uma pontuação alta em um benchmark colaborativo, o LM Arena. O incidente levou os mantenedores do LM Arena a se desculparem, mudarem suas políticas e avaliarem o Maverick em sua versão não modificada e original.

Acontece que não é muito competitivo.

O Maverick não modificado, “Llama-4-Maverick-17B-128E-Instruct,” foi classificado abaixo de modelos, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google até sexta-feira. Muitos desses modelos já têm meses de existência.

Por que o desempenho fraco? O Maverick experimental da Meta, Llama-4-Maverick-03-26-Experimental, foi “otimizado para conversação,” explicou a empresa em um gráfico publicado no último sábado. Essas otimizações aparentemente funcionaram bem no LM Arena, que conta com avaliadores humanos que comparam as saídas dos modelos e escolhem suas preferidas.

Como já discutimos antes, por várias razões, o LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. No entanto, adaptar um modelo a um benchmark — além de ser enganoso — torna desafiador para os desenvolvedores prever exatamente como o modelo se sairá em diferentes contextos.

Em uma declaração, um porta-voz da Meta informou ao TechCrunch que a Meta experimenta com “todos os tipos de variantes personalizadas.”

“‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat com a qual experimentamos e que também se sai bem no LMArena,” disse o porta-voz. “Agora, lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o Llama 4 para seus próprios casos de uso. Estamos empolgados para ver o que eles irão construir e aguardamos seu feedback contínuo.”


    6 + catorze =

    Bolt42