Bolt42

A DeepSeek, a empresa de IA viral, lançou um novo conjunto de modelos de IA multimodal que afirma poder superar o DALL-E 3 da OpenAI.

Os modelos, que estão disponíveis para download na plataforma de desenvolvimento de IA Hugging Face, fazem parte de uma nova família de modelos que a DeepSeek chama de Janus Pro. Eles variam de 1 bilhão a 7 bilhões de parâmetros. Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

O Janus Pro está sob uma licença MIT, o que significa que pode ser usado comercialmente sem restrições.

Imagem da DeepSeek
Saídas de imagem dos modelos Janus Pro da DeepSeek.Créditos da Imagem:DeepSeek

O Janus Pro, que a DeepSeek descreve como uma “nova estrutura autoregressiva”, pode tanto analisar quanto criar novas imagens. De acordo com a empresa, em dois benchmarks de avaliação de IA, GenEval e DPG-Bench, o maior modelo Janus Pro, Janus Pro 7B, supera o DALL-E 3, assim como modelos como PixArt-alpha, Emu3-Gen e o Stable Diffusion XL da Stability AI.

Alguns desses modelos são um pouco mais antigos, é verdade. E o Janus Pro só pode analisar e gerar imagens pequenas — imagens com resolução de 384 x 384. Mas o desempenho da família Janus Pro é impressionante, considerando o tamanho compacto dos modelos.

“O Janus Pro supera modelos unificados anteriores e iguala ou excede o desempenho de modelos específicos de tarefas,” escreve a DeepSeek em um post no Hugging Face. “A simplicidade, alta flexibilidade e eficácia do Janus Pro fazem dele um forte candidato para os próximos modelos multimodais unificados da próxima geração.”

Imagem da DeepSeek
Modelos Janus Pro da DeepSeek comparados com a concorrência.Créditos da Imagem:DeepSeek

A DeepSeek, um laboratório de IA chinês financiado em grande parte pela empresa de trading quantitativo High-Flyer Capital Management, ganhou destaque esta semana após seu aplicativo de chatbot atingir o topo das paradas da Apple App Store. Os modelos de linguagem da DeepSeek, que foram treinados utilizando técnicas eficientes em termos de computação, fizeram com que muitos analistas de Wall Street — e tecnólogos — questionassem se os EUA conseguiriam manter sua liderança na corrida da IA e se a demanda por chips de IA se sustentaria.


    dezesseis − 5 =

    Bolt42