O laboratório de IA chinesa DeepSeek pode estar recebendo boa parte da atenção da indústria de tecnologia esta semana. Mas um de seus principais concorrentes domésticos, a Alibaba, não está parado.
A equipe Qwen da Alibaba anunciou na segunda-feira o lançamento de uma nova família de modelos de IA, o Qwen2.5-VL, que pode realizar diversas tarefas de análise de texto e imagem. Os modelos conseguem analisar arquivos, entender vídeos, contar objetos em imagens e controlar um PC — similar ao modelo que alimenta o Operador recentemente lançado pela OpenAI.
Segundo a equipe Qwen, o melhor modelo Qwen2.5-VL supera o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 2.0 Flash da Google em uma série de avaliações de entendimento de vídeo, matemática, análise de documentos e resposta a perguntas.
O Qwen2.5-VL, que está disponível para testes no aplicativo Qwen Chat e para download na plataforma de desenvolvedores de IA Hugging Face, pode analisar gráficos e ilustrações, extrair dados de digitalizações de faturas e formulários, e “compreender” vídeos que duram várias horas, segundo a equipe Qwen. O Qwen2.5-VL também pode reconhecer “IPs de filmes e séries de TV, bem como uma ampla variedade de produtos,” de acordo com a equipe — sugerindo que os modelos podem ter sido treinados em parte com obras protegidas por direitos autorais.
Sendo uma IA desenvolvida por uma empresa chinesa, o Qwen2.5-VL possui certas restrições sobre os temas que abordará — pelo menos no Qwen Chat. Quando pedi ao maior e mais avançado modelo Qwen2.5-VL, o Qwen2.5-VL-72B, para falar sobre “os erros de Xi Jinping,” o Qwen Chat retornou uma mensagem de erro.
O regulador da internet da China avalia muitos modelos desenvolvidos no país para garantir que suas respostas “incorporem valores socialistas centrais.” Muitos sistemas de IA chineses se recusam a responder sobre tópicos que podem irritar os reguladores, como a autonomia de Taiwan.
Uma das características mais interessantes do Qwen2.5-VL é sua capacidade de interagir com softwares — tanto em PCs quanto em dispositivos móveis. Um vídeo postado no X por Philipp Schmid, um líder técnico na Hugging Face, mostrou o Qwen2.5-VL lançando o aplicativo Booking.com para Android e reservando um voo de Chongqing para Pequim.
Não perca @Alibaba_Qwen 2.5 VL! Apesar de toda a agitação da Deepseek, o Qwen acaba de lançar o melhor multimodal aberto! O Qwen 2.5 VL é um modelo de linguagem visual que pode controlar seu computador, semelhante ao @OpenAI Operador, extrair informações estruturadas de gráficos e muito mais!!
Resumo;
3️⃣… pic.twitter.com/GeEGVdl0tI— Philipp Schmid (@_philschmid) 27 de janeiro de 2025
No vídeo abaixo, um modelo Qwen2.5-VL controla aplicativos em um desktop Linux — mas parece não conseguir realizar muito além de trocar de abas. Talvez de forma reveladora, o benchmarking da Qwen mostra que o Qwen2.5-VL obteve pontuações baixas no OSWorld, um teste que tenta imitar um ambiente de computação real.
LMAO Qwen 2.5 VL pode realizar tarefas de computação, de forma automática, desafiando o OpenAI Operator de frente! 🐐 pic.twitter.com/lwMECXzNSu
— Vaibhav (VB) Srivastav (@reach_vb) 27 de janeiro de 2025
Os dois modelos menores e menos sofisticados da série Qwen2.5-VL, o Qwen2.5-VL-3B e o Qwen2.5-VL-7B, estão disponíveis sob uma licença permissiva. No entanto, o modelo principal Qwen2.5-VL-72B está sob uma licença customizada da Alibaba, que exige que empresas e desenvolvedores com mais de 100 milhões de usuários ativos mensais solicitem permissão ao Qwen/Alibaba antes de implementar o modelo comercialmente.
Conteúdo relacionado
Google lança programa de “saída voluntária” para empregados do Android, Chrome e Pixel.
[the_ad id="145565"] Rick Osterloh, SVP do Google, enviou um memorando interno para a equipe de Pixel/Android/Chrome na quinta-feira, anunciando um “programa de saída…
Recurso ‘Peça por Mim’ do Google liga para empresas em seu nome para perguntar sobre serviços e preços
[the_ad id="145565"] O Google está testando um novo recurso chamado “Peça por Mim”, que utiliza IA para fazer chamadas a empresas locais em seu nome, para obter informações…
OpenAI supostamente em negociações para levantar $40 bilhões com uma avaliação de $340 bilhões.
[the_ad id="145565"] A OpenAI pode ter bilhões de dólares no banco. Mas está se preparando para arrecadar bilhões a mais, segundo um relatório do The Wall Street Journal. De…