O novo pequeno modelo de IA da Ai2 supera modelos de tamanho semelhante da Google e Meta.

Parece que esta é a semana dos pequenos modelos de IA.

O instituto de pesquisa de IA sem fins lucrativos Ai2 anunciou na quinta-feira o lançamento do Olmo 2 1B, um modelo de 1 bilhão de parâmetros que segundo a Ai2 supera modelos de tamanho semelhante da Google, Meta e Alibaba em vários benchmarks. Os parâmetros, às vezes chamados de pesos, são componentes internos de um modelo que orientam seu comportamento.

Olmo 2 1B está disponível sob uma licença permissiva Apache 2.0 na plataforma de desenvolvimento de IA Hugging Face. Diferente da maioria dos modelos, o Olmo 2 1B pode ser replicado do zero, pois a Ai2 forneceu o código e os conjuntos de dados (Olmo-mix-1124 e Dolmino-mix-1124) usados para desenvolvê-lo.

Modelos pequenos podem não ser tão capazes quanto seus gigantescos adversários, mas, o que é importante, não exigem hardware poderoso para rodar. Isso os torna muito mais acessíveis para desenvolvedores e entusiastas que lidam com as limitações de hardware de baixo desempenho e máquinas de consumo.

Nos últimos dias, houve uma série de lançamentos de pequenos modelos, desde a família de raciocínio Phi 4 da Microsoft até o Qwen 2.5 Omni 3B. A maioria deles, incluindo o Olmo 2 1B, pode ser facilmente executada em um laptop moderno ou até mesmo em um dispositivo móvel.

A Ai2 afirma que o Olmo 2 1B foi treinado em um conjunto de dados de 4 trilhões de tokens de fontes disponíveis publicamente, geradas por IA e criadas manualmente. Tokens são os dados brutos que os modelos consomem e geram, com um milhão de tokens equivalente a cerca de 750.000 palavras.

Em um benchmark que mede o raciocínio aritmético, o GSM8K, o Olmo 2 1B tem uma pontuação melhor do que o Gemma 3 1B da Google, o Llama 3.2 1B da Meta e o Qwen 2.5 1.5B da Alibaba. O Olmo 2 1B também supera o desempenho desses três modelos no TruthfulQA, um teste para avaliar a precisão factual.

Evento Techcrunch

Berkeley, CA
|
5 de junho

RESERVE AGORA

Este modelo foi pré-treinado em 4T tokens de dados de alta qualidade, seguindo o mesmo padrão de pré-treinamento em alta qualidade de nossos modelos de 7, 13 e 32B. Carregamos pontos de verificação intermediários a cada 1000 etapas no treinamento.

Acesse o modelo base: https://t.co/xofyWJmo85 pic.twitter.com/7uSJ6sYMdL

— Ai2 (@allen_ai) 1 de maio de 2025

A Ai2 advertiu, no entanto, que o Olmo 2 1B apresenta riscos. Como todos os modelos de IA, ele pode produzir “resultados problemáticos”, incluindo conteúdo prejudicial e “sensível”, disse a organização, além de declarações factualmente imprecisas. Por esses motivos, a Ai2 recomenda contra a implementação do Olmo 2 1B em ambientes comerciais.