Bolt42

Executivos e pesquisadores liderando os esforços de IA da Meta estavam obcecados em superar o modelo GPT-4 da OpenAI enquanto desenvolviam o Llama 3, de acordo com mensagens internas reveladas por um tribunal na terça-feira em um dos casos de direitos autorais de IA em andamento da empresa, Kadrey v. Meta.

“Honestamente… Nosso objetivo deve ser o GPT-4,” disse o VP de IA Generativa da Meta, Ahmad Al-Dahle, em uma mensagem de outubro de 2023 para o pesquisador da Meta, Hugo Touvron. “Temos 64 mil GPUs a caminho! Precisamos aprender a construir de forma inovadora e vencer essa corrida.”

Embora a Meta lance modelos de IA abertos, os líderes de IA da empresa estavam muito mais focados em superar concorrentes que geralmente não divulgam os pesos de seus modelos, como a Anthropic e a OpenAI, e em vez disso, escondem-nos atrás de uma API. Os executivos e pesquisadores da Meta consideravam o Claude da Anthropic e o GPT-4 da OpenAI como um padrão de ouro a ser alcançado.

A startup francesa de IA Mistral, um dos maiores concorrentes abertos da Meta, foi mencionada várias vezes nas mensagens internas, mas o tom era desdenhoso.

“Mistral é um trocado para nós,” disse Al-Dahle em uma mensagem. “Devemos ser capazes de fazer melhor,” afirmou mais tarde.

As empresas de tecnologia estão correndo para superar umas às outras com modelos de IA de ponta hoje em dia, mas esses registros judiciais revelam quão competitivos os líderes de IA da Meta realmente eram — e aparentemente ainda são. Em vários momentos nas trocas de mensagens, as lideranças de IA da Meta falaram sobre como estavam “muito agressivos” em obter os dados certos para treinar o Llama; em um momento, um executivo disse até que “Llama 3 é literalmente tudo que me importa,” em uma mensagem para os colegas.

Os promotores deste caso alegam que os executivos da Meta ocasionalmente cortaram caminhos em sua frenética corrida para lançar modelos de IA, treinando com livros protegidos por direitos autorais no processo.

Touvron observou em uma mensagem que a mistura de datasets utilizada para o Llama 2 “era ruim,” e comentou sobre como a Meta poderia usar uma mistura melhor de fontes de dados para aprimorar o Llama 3. Touvron e Al-Dahle então discutiram sobre limpar o caminho para usar o conjunto de dados do LibGen, que contém obras protegidas por direitos autorais de Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education.

“Temos os conjuntos de dados certos lá[?]” disse Al-Dahle. “Há algo que você quis usar, mas não conseguiu por algum motivo estúpido?”

O CEO da Meta, Mark Zuckerberg, já declarou anteriormente que está tentando fechar a lacuna de desempenho entre os modelos de IA do Llama e os modelos fechados da OpenAI, Google e outros. As mensagens internas revelam a intensa pressão dentro da empresa para fazer isso.

“Este ano, o Llama 3 é competitivo com os modelos mais avançados e lidera em algumas áreas,” disse Zuckerberg em uma carta de julho de 2024. “A partir do próximo ano, esperamos que os futuros modelos Llama se tornem os mais avançados da indústria.”

Quando a Meta finalmente lançou o Llama 3 em abril de 2024, o modelo de IA aberto era competitivo com os principais modelos fechados da Google, OpenAI e Anthropic, e superou opções abertas da Mistral. No entanto, os dados usados pela Meta para treinar seus modelos — dados que Zuckerberg aparentemente autorizou a serem utilizados, apesar de seu status de direitos autorais — estão enfrentando escrutínio em várias ações judiciais em andamento.


    16 − 12 =

    Bolt42