Bolt42

A Meta lançou Llama 3.1 405B, seu mais recente e avançado modelo aberto.

Com 405 bilhões de parâmetros, este modelo poderoso é considerado o maior e mais capaz modelo fundacional disponível abertamente no mundo…

E está mudando o cenário de IA para provedores de modelos fechados, como a OpenAI.

Mas por que isso é importante?

Consegui a resposta do fundador e CEO do Marketing AI Institute, Paul Roetzer, no episódio 107 do The Artificial Intelligence Show.

Uma nova fronteira em “código aberto”

Llama 3.1 405B não é apenas grande—é revolucionária. A Meta afirma que ela rivaliza com os principais modelos de IA em capacidades como conhecimento geral, direcionamento, matemática, uso de ferramentas e tradução multilíngue. Também possui uma janela de contexto expandida de 128.000 tokens e melhor suporte para oito idiomas.

O processo de treinamento do modelo não foi uma tarefa simples. A Meta utilizou mais de 16.000 GPUs H100 e processou mais de 15 trilhões de tokens para dar vida ao Llama 3.1 405B.

É uma nova fronteira em “código aberto” em IA.

Por que as aspas?

Porque a Meta tem uma definição interessante de “código aberto”.

A Meta está chamando o Llama 3.1 405B de “código aberto”, mas está usando o termo de uma forma um pouco diferente do que os tradicionalistas podem esperar.

O Llama 3.1 405B é “aberto” no sentido de que qualquer um pode usá-lo e construí-lo, mesmo para fins comerciais, desde que siga as diretrizes de uso da Meta.

No entanto, tradicionalmente em código aberto, você também esperaria ter acesso aos dados usados para treinar o modelo. Isso não está acontecendo aqui. As empresas de IA são extremamente protetivas em relação às informações sobre exatamente o que seus modelos foram treinados. (Às vezes por motivos competitivos, outras vezes para evitar responsabilidade legal.)

No entanto, a Meta está sendo bastante transparente e detalhada sobre a infraestrutura técnica usada para treinar o Llama 3.1 e os pesos do modelo. A empresa parece acreditar que isso ainda se encaixa na definição de código aberto.

“Eles estão claramente considerando o que estão fazendo como ‘código aberto’, quer os tradicionalistas queiram que chamem assim ou não”, diz Roetzer.

Isso parece ser parte de um esforço maior da Meta para redefinir o código aberto—e dominar a categoria de IA. Uma prova adicional disso é um robusto manifesto de código aberto lançado pelo CEO Mark Zuckerberg.

O manifesto de Zuckerberg

Uma carta divulgada por Zuckerberg juntamente com o lançamento do Llama, intitulada “A IA de Código Aberto é o Caminho Adiante,” é uma parte importante para entender o impacto maior do Llama 3.1, diz Roetzer.

Na carta, Zuck argumenta por que a IA de código aberto é crucial para o futuro. Seu argumento é que o código aberto torna a IA mais acessível, mais avançada e mais segura ao longo do tempo porque há um ecossistema mais amplo de pessoas e desenvolvedores trabalhando em modelos de código aberto.

O código aberto, ele argumenta, também permite que organizações treinem e ajustem modelos para necessidades específicas, sem ficarem presas a fornecedores fechados ou exporem dados sensíveis a empresas e servidores de terceiros.

Zuckerberg também faz algumas críticas não muito sutis a concorrentes de código fechado como OpenAI e Apple, posicionando a Meta como campeã do desenvolvimento de IA aberta.

“Isso está marcando um ponto para quem quiser defender a ideia de que o código aberto é fundamental para o futuro”, diz Roetzer.

Um movimento estratégico poderoso

Mas Roetzer afirma que o compromisso da Meta com o código aberto é mais do que apenas altruísmo. É uma estratégia calculada para dominar o cenário da IA.

Ao abrir o código de um modelo tão poderoso, a Meta está, essencialmente, tentando commoditizar o mercado de modelos de ponta, minando as fontes de receita de empresas como OpenAI e Anthropic.

Ao contrário dessas empresas, que dependem da venda de acesso a modelos para gerar receita, a Meta não conta com a venda de modelos de IA ou serviços em nuvem para gerar receita.

Em vez disso, eles podem infundir IA em suas plataformas existentes, já utilizadas por bilhões de pessoas, e incorporá-la em plataformas emergentes como seus óculos inteligentes Ray-Ban.

É totalmente possível que futuros modelos da Meta não sejam de código aberto. Mas, por enquanto, torná-los gratuitos para todos realmente faz sentido como uma estratégia de negócios.

Como Roetzer escreveu no LinkedIn sobre essa movimentação:

“Em essência, Mark Zuckerberg tomou a decisão estratégica de gastar dezenas, se não centenas, de bilhões de dólares nos próximos anos para commoditizar o mercado de modelos de ponta e minar os canais de receita principais da Anthropic e OpenAI, assim como o potencial de mercado emergente da Google, Microsoft e Amazon, dando tecnologia que eles estão cobrando.”

Maior, mais rápido, mais inteligente

Llama 3.1 405B, por mais impressionante que seja, é apenas o começo, diz Roetzer.

A Meta planeja expandir dramaticamente sua infraestrutura de IA, mirando um poder computacional equivalente a 600.000 GPUs H100 até o final de 2024. Isso representa um investimento impressionante de 18 bilhões de dólares apenas em chips.

Essa corrida armamentista não se limita à Meta. Outros grandes players como OpenAI, Google e xAI estão todos trabalhando em modelos ainda mais avançados.

Então, afirma ele, a pergunta que surge é:

Veremos uma série de melhorias incrementais nos modelos ou alguém está à beira de uma grande descoberta?

No cerne, a estratégia atual de IA de empresas como a Meta se resume a uma equação simples: 

Dê a esses modelos mais poder computacional e mais dados, e eles parecem ficar mais inteligentes.

Com os enormes investimentos que estamos vendo em infraestrutura de GPU, o lado computacional dessa equação parece bem coberto.

A pergunta, então, passa a ser:

Com todo esse investimento e atividade, veremos um ritmo constante de melhorias incrementais nos modelos—ou alguém fará outra grande descoberta em breve?

Só o tempo dirá.



Bolt42