Uma nova família de modelos de IA surgiu, e é uma das poucas que podem ser reproduzidas do zero.
Na terça-feira, a Ai2, a organização de pesquisa em IA sem fins lucrativos fundada pelo falecido Paul Allen, lançou o OLMo 2, a segunda família de modelos da sua série OLMo. (OLMo é a sigla para “Modelo de Linguagem Aberta”.) Embora haja uma infinidade de modelos de linguagem “abertos” disponíveis (veja: o Llama da Meta), o OLMo 2 atende à definição de IA open source da Open Source Initiative, o que significa que as ferramentas e dados utilizados para seu desenvolvimento estão disponíveis publicamente.
A Open Source Initiative, a instituição de longa data que visa definir e “administrar” tudo relacionado ao open source, finalizou sua definição de IA open source em outubro. Mas os primeiros modelos OLMo, lançados em fevereiro, também atendiam a esse critério.
“O OLMo 2 [foi] desenvolvido do início ao fim com dados de treinamento abertos e acessíveis, código de treinamento open source, receitas de treinamento reproduzíveis, avaliações transparentes, pontos de verificação intermediários e mais”, escreveu a AI2 em um postagem de blog. “Ao compartilhar abertamente nossos dados, receitas e descobertas, esperamos fornecer à comunidade open source os recursos necessários para descobrir novas abordagens inovadoras.”
Existem dois modelos na família OLMo 2: um com 7 bilhões de parâmetros (OLMo 7B) e outro com 13 bilhões de parâmetros (OLMo 13B). Os parâmetros correspondem, aproximadamente, às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam melhor desempenho do que aqueles com menos parâmetros.
Como a maioria dos modelos de linguagem, OLMo 2 7B e 13B podem executar uma variedade de tarefas baseadas em texto, como responder perguntas, resumir documentos e escrever código.
Para treinar os modelos, a Ai2 utilizou um conjunto de dados de 5 trilhões de tokens. Tokens representam partes de dados brutos; 1 milhão de tokens equivale a cerca de 750.000 palavras. O conjunto de treinamento incluía sites “filtrados para alta qualidade,” artigos acadêmicos, fóruns de perguntas e respostas, e livros de matemática “tanto sintéticos quanto gerados por humanos.”
A Ai2 afirma que o resultado são modelos que são competitivos, em termos de desempenho, com modelos abertos como o Llama 3.1 da Meta.
“Não só observamos uma melhoria dramática no desempenho em todas as tarefas em comparação com nosso modelo anterior OLMo, mas, notablemente, o OLMo 2 7B supera o LLama 3.1 8B,” escreve a Ai2. “O OLMo 2 [representa] os melhores modelos de linguagem totalmente abertos até hoje.”
Os modelos OLMo 2 e todos os seus componentes podem ser baixados do site da Ai2. Eles estão sob a licença Apache 2.0, o que significa que podem ser usados comercialmente.
Houve um debate recente sobre a segurança dos modelos abertos, uma vez que modelos Llama estão supostamente sendo usados por pesquisadores chineses para desenvolver ferramentas de defesa. Quando perguntei ao engenheiro da Ai2, Dirk Groeneveld, em fevereiro, se ele estava preocupado com o abuso do OLMo, ele me disse que acredita que os benefícios, em última análise, superam os danos.
“Sim, é possível que modelos abertos sejam usados de forma inadequada ou para fins não intencionais,” ele disse. “[No entanto, essa] abordagem também promove avanços técnicos que levam a modelos mais éticos; é um pré-requisito para verificação e reprodutibilidade, já que estas só podem ser alcançadas com acesso ao stack completo; e reduz a crescente concentração de poder, criando um acesso mais equitativo.”
Conteúdo relacionado
A Uber está formando uma equipe de trabalhadores autônomos para rotular dados para modelos de IA.
[the_ad id="145565"] A Uber está expandindo sua frota de trabalhadores temporários e criando uma nova categoria: anotação de IA e rotulagem de dados. A empresa de transporte de…
CoCounsel da Thomson Reuters redefine a IA jurídica com o modelo o1-mini da OpenAI
[the_ad id="145565"] Participe de nossas newsletters diárias e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA.…
AWS re:Invent 2024: O que esperar e como assistir ao maior evento do ano da Amazon
[the_ad id="145565"] A maior conferência do ano da Amazon Web Services (AWS) está chegando, e todos os sinais indicam que será um evento movimentado. O AWS re:Invent 2024…