Parece que esta é a semana dos pequenos modelos de IA.
O instituto de pesquisa de IA sem fins lucrativos Ai2 anunciou na quinta-feira o lançamento do Olmo 2 1B, um modelo de 1 bilhão de parâmetros que segundo a Ai2 supera modelos de tamanho semelhante da Google, Meta e Alibaba em vários benchmarks. Os parâmetros, às vezes chamados de pesos, são componentes internos de um modelo que orientam seu comportamento.
Olmo 2 1B está disponível sob uma licença permissiva Apache 2.0 na plataforma de desenvolvimento de IA Hugging Face. Diferente da maioria dos modelos, o Olmo 2 1B pode ser replicado do zero, pois a Ai2 forneceu o código e os conjuntos de dados (Olmo-mix-1124 e Dolmino-mix-1124) usados para desenvolvê-lo.
Modelos pequenos podem não ser tão capazes quanto seus gigantescos adversários, mas, o que é importante, não exigem hardware poderoso para rodar. Isso os torna muito mais acessíveis para desenvolvedores e entusiastas que lidam com as limitações de hardware de baixo desempenho e máquinas de consumo.
Nos últimos dias, houve uma série de lançamentos de pequenos modelos, desde a família de raciocínio Phi 4 da Microsoft até o Qwen 2.5 Omni 3B. A maioria deles, incluindo o Olmo 2 1B, pode ser facilmente executada em um laptop moderno ou até mesmo em um dispositivo móvel.
A Ai2 afirma que o Olmo 2 1B foi treinado em um conjunto de dados de 4 trilhões de tokens de fontes disponíveis publicamente, geradas por IA e criadas manualmente. Tokens são os dados brutos que os modelos consomem e geram, com um milhão de tokens equivalente a cerca de 750.000 palavras.
Em um benchmark que mede o raciocínio aritmético, o GSM8K, o Olmo 2 1B tem uma pontuação melhor do que o Gemma 3 1B da Google, o Llama 3.2 1B da Meta e o Qwen 2.5 1.5B da Alibaba. O Olmo 2 1B também supera o desempenho desses três modelos no TruthfulQA, um teste para avaliar a precisão factual.
Evento Techcrunch
Berkeley, CA
|
5 de junho
RESERVE AGORA
Este modelo foi pré-treinado em 4T tokens de dados de alta qualidade, seguindo o mesmo padrão de pré-treinamento em alta qualidade de nossos modelos de 7, 13 e 32B. Carregamos pontos de verificação intermediários a cada 1000 etapas no treinamento.
Acesse o modelo base: https://t.co/xofyWJmo85 pic.twitter.com/7uSJ6sYMdL
— Ai2 (@allen_ai) 1 de maio de 2025
A Ai2 advertiu, no entanto, que o Olmo 2 1B apresenta riscos. Como todos os modelos de IA, ele pode produzir “resultados problemáticos”, incluindo conteúdo prejudicial e “sensível”, disse a organização, além de declarações factualmente imprecisas. Por esses motivos, a Ai2 recomenda contra a implementação do Olmo 2 1B em ambientes comerciais.
Conteúdo relacionado
Co-fundador do Instagram alerta que chatbots de IA estão ‘aumentando o engajamento’ em vez de serem úteis
[the_ad id="145565"] O cofundador do Instagram, Kevin Systrom, afirma que as empresas de IA estão tentando exagerar na "engajamento" ao incomodar os usuários com perguntas de…
Custos ocultos na implementação de IA: Por que os modelos Claude podem ser 20-30% mais caros que o GPT em ambientes empresariais
[the_ad id="145565"] É um fato bem conhecido que diferentes famílias de modelos podem usar diferentes tokenizadores. No entanto, houve uma análise limitada sobre como o…
Airbnb está implementando discretamente um bot de atendimento ao cliente com inteligência artificial nos EUA.
[the_ad id="145565"] A Airbnb começou a implementar um bot de atendimento ao cliente alimentado por IA nos EUA no mês passado, disse o CEO Brian Chesky durante a conferência de…