Bolt42

A Meta anunciou a mais recente adição à sua família de modelos de IA generativa Llama: o Llama 3.3 70B.

Em uma publicação no X, Ahmad Al-Dahle, VP de IA generativa da Meta, afirmou que o modelo Llama 3.3 70B, que opera apenas com texto, oferece o desempenho do maior modelo da Meta, o Llama 3.1 405B, a um custo menor.

“Ao aproveitar os mais recentes avanços em técnicas de pós-treinamento … este modelo melhora o desempenho central a um custo significativamente mais baixo,” escreveu Al-Dahle.

Al-Dahle publicou um gráfico mostrando que o Llama 3.3 70B supera o Gemini 1.5 Pro do Google, o GPT-4o da OpenAI e o recém-lançado Nova Pro da Amazon em vários benchmarks industriais, incluindo o MMLU, que avalia a capacidade de um modelo de compreender a linguagem. Via e-mail, um porta-voz da Meta disse que o modelo deve proporcionar melhorias em áreas como matemática, conhecimentos gerais, seguimento de instruções e uso de aplicativos.

O Llama 3.3 70B, disponível para download na plataforma de desenvolvimento de IA Hugging Face e outras fontes, incluindo o site oficial do Llama, é a mais recente jogada da Meta para dominar o campo da IA com modelos “abertos” que podem ser usados e comercializados para uma variedade de aplicações.

Os termos da Meta impõem restrições sobre como certos desenvolvedores podem usar os modelos Llama; plataformas com mais de 700 milhões de usuários mensais devem solicitar uma licença especial. Mas para muitos, é irrelevante que os modelos Llama não sejam “abertos” no sentido estrito. Um exemplo é que o Llama já acumulou mais de 650 milhões de downloads, segundo a Meta.

A Meta também utilizou o Llama internamente. O Meta AI, o assistente de IA da empresa, que é totalmente alimentado por modelos Llama, agora conta com quase 600 milhões de usuários ativos mensais, de acordo com Mark Zuckerberg, CEO da Meta. Zuckerberg afirma que o Meta AI está a caminho de se tornar o assistente de IA mais utilizado no mundo.

Para a Meta, a natureza aberta do Llama tem sido uma bênção e uma maldição. Em novembro, um relatório alegou que pesquisadores militares chineses usaram um modelo Llama para desenvolver um chatbot de defesa. A Meta respondeu disponibilizando seus modelos Llama para contratantes de defesa dos EUA.

A Meta também expressou preocupações sobre sua capacidade de cumprir com a Lei de IA, a legislação da UE que estabelece um marco regulatório para a IA, chamando a implementação da lei de “muito imprevisível” para sua estratégia de lançamento aberto. Uma questão relacionada para a empresa são as disposições do GDPR, a lei de proteção à privacidade da UE, referentes ao treinamento de IA. A Meta treina modelos de IA com dados públicos de usuários do Instagram e Facebook que não optaram por sair — dados que, na Europa, estão sujeitos às garantias do GDPR.

Os reguladores da UE pediram este ano que a Meta suspendesse o treinamento com os dados de usuários europeus enquanto avaliavam a conformidade da empresa com o GDPR. A Meta cedeu, ao mesmo tempo em que endossou uma carta aberta pedindo uma “interpretação moderna” do GDPR que não “rejeite o progresso.”

A Meta, não isenta dos desafios técnicos que outros laboratórios de IA estão enfrentando, está aumentando sua infraestrutura computacional para treinar e fornecer futuras gerações do Llama. A empresa anunciou na quarta-feira a construção de um data center de IA de $10 bilhões na Louisiana — o maior data center de IA que a Meta já construiu.

Zuckerberg afirmou na chamada de resultados do Q4 da Meta em agosto que para treinar o próximo grande conjunto de modelos Llama, Llama 4, a empresa precisará de 10 vezes mais capacidade computacional do que o necessário para treinar o Llama 3. A Meta adquiriu um cluster de mais de 100.000 GPUs da Nvidia para o desenvolvimento do modelo, rivalizando com os recursos de concorrentes como a xAI.

Treinar modelos de IA generativa é um negócio caro. Os gastos de capital da Meta aumentaram quase 33% para $8,5 bilhões no Q2 de 2024, em comparação com $6,4 bilhões um ano antes, impulsionados por investimentos em servidores, data centers e infraestrutura de rede.


    7 + 16 =

    Bolt42