Parece que esta é a semana dos pequenos modelos de IA.
O instituto de pesquisa de IA sem fins lucrativos Ai2 anunciou na quinta-feira o lançamento do Olmo 2 1B, um modelo de 1 bilhão de parâmetros que segundo a Ai2 supera modelos de tamanho semelhante da Google, Meta e Alibaba em vários benchmarks. Os parâmetros, às vezes chamados de pesos, são componentes internos de um modelo que orientam seu comportamento.
Olmo 2 1B está disponível sob uma licença permissiva Apache 2.0 na plataforma de desenvolvimento de IA Hugging Face. Diferente da maioria dos modelos, o Olmo 2 1B pode ser replicado do zero, pois a Ai2 forneceu o código e os conjuntos de dados (Olmo-mix-1124 e Dolmino-mix-1124) usados para desenvolvê-lo.
Modelos pequenos podem não ser tão capazes quanto seus gigantescos adversários, mas, o que é importante, não exigem hardware poderoso para rodar. Isso os torna muito mais acessíveis para desenvolvedores e entusiastas que lidam com as limitações de hardware de baixo desempenho e máquinas de consumo.
Nos últimos dias, houve uma série de lançamentos de pequenos modelos, desde a família de raciocínio Phi 4 da Microsoft até o Qwen 2.5 Omni 3B. A maioria deles, incluindo o Olmo 2 1B, pode ser facilmente executada em um laptop moderno ou até mesmo em um dispositivo móvel.
A Ai2 afirma que o Olmo 2 1B foi treinado em um conjunto de dados de 4 trilhões de tokens de fontes disponíveis publicamente, geradas por IA e criadas manualmente. Tokens são os dados brutos que os modelos consomem e geram, com um milhão de tokens equivalente a cerca de 750.000 palavras.
Em um benchmark que mede o raciocínio aritmético, o GSM8K, o Olmo 2 1B tem uma pontuação melhor do que o Gemma 3 1B da Google, o Llama 3.2 1B da Meta e o Qwen 2.5 1.5B da Alibaba. O Olmo 2 1B também supera o desempenho desses três modelos no TruthfulQA, um teste para avaliar a precisão factual.
Evento Techcrunch
Berkeley, CA
|
5 de junho
RESERVE AGORA
Este modelo foi pré-treinado em 4T tokens de dados de alta qualidade, seguindo o mesmo padrão de pré-treinamento em alta qualidade de nossos modelos de 7, 13 e 32B. Carregamos pontos de verificação intermediários a cada 1000 etapas no treinamento.
Acesse o modelo base: https://t.co/xofyWJmo85 pic.twitter.com/7uSJ6sYMdL
— Ai2 (@allen_ai) 1 de maio de 2025
A Ai2 advertiu, no entanto, que o Olmo 2 1B apresenta riscos. Como todos os modelos de IA, ele pode produzir “resultados problemáticos”, incluindo conteúdo prejudicial e “sensível”, disse a organização, além de declarações factualmente imprecisas. Por esses motivos, a Ai2 recomenda contra a implementação do Olmo 2 1B em ambientes comerciais.
Conteúdo relacionado
NVIDIA Cosmos: Potencializando a IA Física com Simulações
[the_ad id="145565"] O desenvolvimento de sistemas de IA física, como robôs em fábricas e veículos autônomos nas ruas, depende fortemente de grandes conjuntos de dados de alta…
Apple e Anthropic supostamente se uniram para criar uma plataforma de codificação de IA.
[the_ad id="145565"] A Apple e a Anthropic estão se unindo para criar uma plataforma de software chamada “vibe-coding” que utilizará inteligência artificial generativa para…
Um dos modelos recentes de IA Gemini do Google apresenta pior desempenho em segurança.
[the_ad id="145565"] Um modelo de IA recém-lançado pela Google obteve pontuação pior em certos testes de segurança em comparação ao seu predecessor, de acordo com a avaliação…