Bolt42

O laboratório de IA chinesa DeepSeek pode estar recebendo boa parte da atenção da indústria de tecnologia esta semana. Mas um de seus principais concorrentes domésticos, a Alibaba, não está parado.

A equipe Qwen da Alibaba anunciou na segunda-feira o lançamento de uma nova família de modelos de IA, o Qwen2.5-VL, que pode realizar diversas tarefas de análise de texto e imagem. Os modelos conseguem analisar arquivos, entender vídeos, contar objetos em imagens e controlar um PC — similar ao modelo que alimenta o Operador recentemente lançado pela OpenAI.

Segundo a equipe Qwen, o melhor modelo Qwen2.5-VL supera o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 2.0 Flash da Google em uma série de avaliações de entendimento de vídeo, matemática, análise de documentos e resposta a perguntas.

Alibaba Qwen 2.5 VL
Créditos da Imagem:Alibaba

O Qwen2.5-VL, que está disponível para testes no aplicativo Qwen Chat e para download na plataforma de desenvolvedores de IA Hugging Face, pode analisar gráficos e ilustrações, extrair dados de digitalizações de faturas e formulários, e “compreender” vídeos que duram várias horas, segundo a equipe Qwen. O Qwen2.5-VL também pode reconhecer “IPs de filmes e séries de TV, bem como uma ampla variedade de produtos,” de acordo com a equipe — sugerindo que os modelos podem ter sido treinados em parte com obras protegidas por direitos autorais.

Sendo uma IA desenvolvida por uma empresa chinesa, o Qwen2.5-VL possui certas restrições sobre os temas que abordará — pelo menos no Qwen Chat. Quando pedi ao maior e mais avançado modelo Qwen2.5-VL, o Qwen2.5-VL-72B, para falar sobre “os erros de Xi Jinping,” o Qwen Chat retornou uma mensagem de erro.

O regulador da internet da China avalia muitos modelos desenvolvidos no país para garantir que suas respostas “incorporem valores socialistas centrais.” Muitos sistemas de IA chineses se recusam a responder sobre tópicos que podem irritar os reguladores, como a autonomia de Taiwan.

Uma das características mais interessantes do Qwen2.5-VL é sua capacidade de interagir com softwares — tanto em PCs quanto em dispositivos móveis. Um vídeo postado no X por Philipp Schmid, um líder técnico na Hugging Face, mostrou o Qwen2.5-VL lançando o aplicativo Booking.com para Android e reservando um voo de Chongqing para Pequim.

No vídeo abaixo, um modelo Qwen2.5-VL controla aplicativos em um desktop Linux — mas parece não conseguir realizar muito além de trocar de abas. Talvez de forma reveladora, o benchmarking da Qwen mostra que o Qwen2.5-VL obteve pontuações baixas no OSWorld, um teste que tenta imitar um ambiente de computação real.

Os dois modelos menores e menos sofisticados da série Qwen2.5-VL, o Qwen2.5-VL-3B e o Qwen2.5-VL-7B, estão disponíveis sob uma licença permissiva. No entanto, o modelo principal Qwen2.5-VL-72B está sob uma licença customizada da Alibaba, que exige que empresas e desenvolvedores com mais de 100 milhões de usuários ativos mensais solicitem permissão ao Qwen/Alibaba antes de implementar o modelo comercialmente.


    três + treze =

    Bolt42