Qwen faz uma tentativa de duplo com o modelo 2.5-Omni-3B que roda em PCs e laptops de consumo.

Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas de IA de líderes do setor. Saiba mais

A gigante de comércio eletrônico e nuvem da China, Alibaba, está pressionando outros provedores de modelos de IA nos EUA e no exterior.

Após o lançamento de sua nova família de modelos de raciocínio abertos Qwen3, a equipe Qwen da Alibaba lançou hoje o Qwen2.5-Omni-3B, uma versão leve da arquitetura de modelo multimodal anterior, projetada para rodar em hardware de consumo sem sacrificar a funcionalidade ampla em entradas de texto, áudio, imagem e vídeo.

O Qwen2.5-Omni-3B é uma variante de 3 bilhões de parâmetros, reduzida, do modelo principal de 7 bilhões de parâmetros (7B). (Lembre-se de que parâmetros se referem ao número de configurações que governam o comportamento e a funcionalidade do modelo, com mais tipicamente denotando modelos mais poderosos e complexos).

Embora seja menor, a versão de 3B mantém mais de 90% do desempenho multimodal do modelo maior e oferece geração em tempo real em texto e fala natural.

Uma grande melhoria vem na eficiência de memória da GPU. A equipe relata que o Qwen2.5-Omni-3B reduz o uso de VRAM em mais de 50% ao processar entradas de longo contexto de 25.000 tokens. Com configurações otimizadas, o consumo de memória cai de 60,2 GB (modelo de 7B) para apenas 28,2 GB (modelo de 3B), possibilitando a implementação em GPUs de 24GB comumente encontradas em desktops e laptops de alto desempenho — ao invés de clusters de GPU maiores ou estações de trabalho dedicadas encontradas em empresas.

Segundo os desenvolvedores, isso é alcançado através de características arquitetônicas como o design Thinker-Talker e um método de incorporação de posição customizado, TMRoPE, que alinha entradas de vídeo e áudio para uma compreensão sincronizada.

No entanto, os termos de licença especificam que é apenas para pesquisa — o que significa que empresas não podem usar o modelo para construir produtos comerciais a menos que obtenham uma licença separada da equipe Qwen da Alibaba, primeiro.

O anúncio segue a crescente demanda por modelos multimodais mais implantáveis e é acompanhado por benchmarks de desempenho que mostram resultados competitivos em relação a modelos maiores da mesma série.

O modelo está agora disponível para download:

Os desenvolvedores podem integrar o modelo em seus processos utilizando Hugging Face Transformers, contêineres Docker ou a implementação vLLM da Alibaba. Otimizações opcionais, como FlashAttention 2 e precisão BF16, são suportadas para aumentar a velocidade e reduzir o consumo de memória.

Desempenho de benchmark mostra resultados fortes mesmo se aproximando de modelos de parâmetros muito maiores

Apesar de seu tamanho reduzido, o Qwen2.5-Omni-3B tem desempenho competitivo em benchmarks-chave:

Tarefa	Qwen2.5-Omni-3B	Qwen2.5-Omni-7B
OmniBench (raciocínio multimodal)	52.2	56.1
VideoBench (compreensão de áudio)	68.8	74.1
MMMU (raciocínio de imagem)	53.1	59.2
MVBench (raciocínio de vídeo)	68.7	70.3
Seed-tts-eval test-hard (geração de fala)	92.1	93.5

A pequena diferença de desempenho nas tarefas de vídeo e fala destaca a eficiência do design do modelo 3B, especialmente em áreas onde a interação em tempo real e qualidade de saída são as mais importantes.

Fala em tempo real, personalização de voz e mais

O Qwen2.5-Omni-3B suporta entrada simultânea entre modalidades e pode gerar respostas em texto e áudio em tempo real.

O modelo inclui recursos de personalização de voz, permitindo aos usuários escolher entre duas vozes integradas — Chelsie (feminina) e Ethan (masculina) — para se adequar a diferentes aplicações ou audiências.

Os usuários podem configurar se desejam retornar respostas apenas em áudio ou texto, e o uso de memória pode ser ainda mais reduzido desativando a geração de áudio quando não for necessário.

Crescimento da comunidade e ecossistema

A equipe Qwen enfatiza a natureza de código aberto de seu trabalho, fornecendo kits de ferramentas, pontos de verificação pré-treinados, acesso à API e guias de implementação para ajudar os desenvolvedores a começar rapidamente.

O lançamento também segue um recente impulso na série Qwen2.5-Omni, que alcançou classificações altas na lista de modelos em alta do Hugging Face.

Junyang Lin da equipe Qwen comentou sobre a motivação por trás do lançamento no X, afirmando: “Enquanto muitos usuários aguardam um modelo Omni menor para implantação, nós o construímos.”

O que isso significa para tomadores de decisão técnica nas empresas

Para os tomadores de decisão nas empresas responsáveis pelo desenvolvimento de IA, orquestração e estratégia de infraestrutura, o lançamento do Qwen2.5-Omni-3B pode parecer, à primeira vista, um avanço prático. Um modelo multimodal compacto que performa competitivamente contra seu irmão de 7B enquanto roda em GPUs de consumo de 24GB oferece uma promessa real em termos de viabilidade operacional. Mas como qualquer tecnologia de código aberto, questões de licenciamento importam — e neste caso, a licença impõe um limite firme entre exploração e implantação.

O modelo Qwen2.5-Omni-3B é licenciado apenas para uso não comercial de acordo com o Acordo de Licença de Pesquisa da Alibaba Cloud Qwen. Isso significa que as organizações podem avaliar o modelo, testá-lo ou ajustá-lo para fins de pesquisa interna — mas não podem implantá-lo em configurações comerciais, como aplicações voltadas para o cliente ou serviços monetizados, sem primeiro garantir uma licença comercial separada da Alibaba Cloud.

Para profissionais que supervisionam ciclos de vida de modelos de IA — seja implantando em ambientes de clientes, orquestrando em larga escala, ou integrando ferramentas multimodais em pipelines existentes — essa restrição introduz considerações importantes. Pode mudar o papel do Qwen2.5-Omni-3B de uma solução pronta para implantação a um banco de testes para viabilidade, uma forma de prototipar ou avaliar interações multimodais antes de decidir se deve licenciar comercialmente ou buscar uma alternativa.

Aqueles em funções de orquestração e operações podem ainda encontrar valor em pilotar o modelo para casos de uso internos — como refinar pipelines, construir ferramentas ou preparar benchmarks — desde que permaneçam dentro dos limites de pesquisa. Engenheiros de dados ou líderes de segurança também podem explorar o modelo para validação interna ou tarefas de QA, mas devem proceder com cautela ao considerar seu uso com dados proprietários ou de clientes em ambientes de produção.

A real conclusão aqui pode ser sobre acesso e restrição: o Qwen2.5-Omni-3B reduz a barreira técnica e de hardware para experimentar com IA multimodal, mas sua licença atual impõe uma fronteira comercial. Ao fazê-lo, oferece equipes de empresas um modelo de alto desempenho para testar ideias, avaliar arquiteturas ou informar decisões de compra versus construção — porém reserva o uso em produção para aqueles que desejam se envolver em uma discussão de licença com a Alibaba.

Nesse contexto, o Qwen2.5-Omni-3B se torna menos uma opção de implantação plug-and-play e mais uma ferramenta de avaliação estratégica — uma maneira de se aproximar da IA multimodal com menos recursos, mas ainda não uma solução pronta para produção.

Insights diários sobre casos de uso empresarial com VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo coberto. Nós oferecemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

Qwen faz uma tentativa de duplo com o modelo 2.5-Omni-3B que roda em PCs e laptops de consumo.

Desempenho de benchmark mostra resultados fortes mesmo se aproximando de modelos de parâmetros muito maiores

Fala em tempo real, personalização de voz e mais

Crescimento da comunidade e ecossistema

O que isso significa para tomadores de decisão técnica nas empresas

Conteúdo relacionado

A “era da experiência” trará agentes de IA autoaprendizes pela web—saiba como se preparar.

O Modo de IA do Google ganha acesso expandido e novas funcionalidades.

O novo Orquestrador da UiPath orienta agentes de IA a seguir as regras da sua empresa