Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder na indústria. Saiba Mais
Modelos de linguagem de grande porte (LLMs) baseados em Transformers são a base do atual cenário de IA generativa.
No entanto, Transformers não são a única forma de gerar IA. Ao longo do último ano, Mamba, uma abordagem que utiliza Modelos de Espaço de Estado Estruturados (SSM), também ganhou adoção como uma alternativa por múltiplos fornecedores, incluindo AI21 e o gigante de silício de IA Nvidia.
A Nvidia discutiu pela primeira vez o conceito de modelos impulsionados por Mamba em 2024, quando lançou inicialmente a pesquisa MambaVision e alguns modelos iniciais. Esta semana, a Nvidia está expandindo seu esforço inicial com uma série de modelos MambaVision atualizados disponíveis no Hugging Face.
MambaVision, como o nome sugere, é uma família de modelos baseados em Mamba para tarefas de visão computacional e reconhecimento de imagem. A promessa do MambaVision para as empresas é que ele pode melhorar a eficiência e a precisão das operações visuais, a custos potencialmente mais baixos, graças a menores requisitos computacionais.
O que são SSMs e como eles se comparam aos transformers?
SSMs são uma classe de arquitetura de rede neural que processa dados sequenciais de maneira diferente dos transformers tradicionais.
Enquanto transformers utilizam mecanismos de atenção para processar todos os tokens em relação uns aos outros, SSMs modelam dados de sequência como um sistema dinâmico contínuo.
Mamba é uma implementação específica de SSM desenvolvida para abordar as limitações dos modelos SSM anteriores. Ele introduz modelagem seletiva de espaço de estados que se adapta dinamicamente aos dados de entrada e um design orientado ao hardware para utilização eficiente de GPU. O Mamba visa fornecer desempenho comparável aos transformers em muitas tarefas enquanto usa menos recursos computacionais.
Nvidia usando arquitetura híbrida com MambaVision para revolucionar a Visão Computacional
Transformers de Visão Tradicional (ViT) dominaram a visão computacional de alto desempenho nos últimos anos, mas a um custo computacional significativo. Abordagens puramente baseadas em Mamba, embora mais eficientes, têm lutado para igualar o desempenho dos Transformers em tarefas de visão complexas que requerem compreensão de contexto global.
MambaVision preenche essa lacuna ao adotar uma abordagem híbrida. O MambaVision da Nvidia é um modelo híbrido que combina estrategicamente a eficiência do Mamba com o poder de modelagem do Transformer.
A inovação da arquitetura reside em sua formulação de Mamba redesenhada, especificamente projetada para modelagem de características visuais, aumentada pela colocação estratégica de blocos de autoatenção nas camadas finais para capturar dependências espaciais complexas.
Ao contrário dos modelos de visão convencionais que dependem exclusivamente de mecanismos de atenção ou abordagens convolucionais, a arquitetura hierárquica do MambaVision emprega ambos os paradigmas simultaneamente. O modelo processa informações visuais por meio de operações sequenciais baseadas em varredura do Mamba, enquanto aproveita a autoatenção para modelar o contexto global — efetivamente aproveitando o melhor dos dois mundos.
MambaVision agora possui 740 milhões de parâmetros
O novo conjunto de modelos MambaVision lançado no Hugging Face está disponível sob a Licença de Código Fonte da Nvidia-NC, que é uma licença aberta.
As variantes iniciais do MambaVision lançadas em 2024 incluem as variantes T e T2, que foram treinadas na biblioteca ImageNet-1K. Os novos modelos lançados esta semana incluem as variantes L/L2 e L3, que são modelos ampliados.
“Desde o lançamento inicial, nós aprimoramos significativamente o MambaVision, expandindo-o para impressionantes 740 milhões de parâmetros,” escreveu Ali Hatamizadeh, Cientista Pesquisador Sênior da Nvidia, em uma postagem de discussão no Hugging Face. “Também expandimos nossa abordagem de treinamento utilizando o maior conjunto de dados ImageNet-21K e introduzimos suporte nativo para resoluções mais altas, agora lidando com imagens de 256 e 512 pixels em comparação com os originais de 224 pixels.”
De acordo com a Nvidia, a escala aprimorada nos novos modelos MambaVision também melhora o desempenho.
O consultor de IA independente Alex Fazio explicou ao VentureBeat que o treinamento dos novos modelos MambaVision em conjuntos de dados maiores os torna muito melhores em lidar com tarefas mais diversas e complexas.
Ele observou que os novos modelos incluem variantes de alta resolução perfeitas para análise detalhada de imagens. Fazio disse que a linha de produtos também se expandiu com configurações avançadas que oferecem mais flexibilidade e escalabilidade para diferentes cargas de trabalho.
“Em termos de benchmarks, espera-se que os modelos de 2025 superem os de 2024, porque eles se generalizam melhor em conjuntos de dados e tarefas maiores,” disse Fazio.
Implicações empresariais do MambaVision
Para as empresas que constroem aplicações de visão computacional, o equilíbrio de desempenho e eficiência do MambaVision abre novas possibilidades.
Redução de custos de inferência: O aumento na taxa de transferência significa menores requisitos de computação de GPU para níveis de desempenho semelhantes em comparação com modelos apenas baseados em Transformers.
Potencial para implantação na borda: Embora ainda sejam grandes, a arquitetura do MambaVision é mais adequada para otimização em dispositivos de borda do que abordagens puramente baseadas em Transformers.
Melhoria no desempenho de tarefas downstream: Os ganhos em tarefas complexas como detecção de objetos e segmentação se traduzem diretamente em melhor desempenho para aplicações do mundo real, como gerenciamento de inventário, controle de qualidade e sistemas autônomos.
Implantação simplificada: A NVIDIA lançou o MambaVision com integração ao Hugging Face, facilitando a implementação com apenas algumas linhas de código tanto para classificação quanto para extração de características.
O que isso significa para a estratégia de IA empresarial
O MambaVision representa uma oportunidade para as empresas implantarem sistemas de visão computacional mais eficientes que mantenham alta precisão. O forte desempenho do modelo significa que ele pode potencialmente servir como uma base versátil para várias aplicações de visão computacional em diversas indústrias.
O MambaVision ainda é um esforço um tanto inicial, mas representa um vislumbre do futuro dos modelos de visão computacional.
O MambaVision destaca como a inovação arquitetônica — não apenas a escala — continua a impulsionar melhorias significativas nas capacidades de IA. Compreender esses avanços arquitetônicos está se tornando cada vez mais crucial para que tomadores de decisão técnicos façam escolhas informadas sobre a implantação de IA.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo para você. Nós trazemos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Peter Diamandis responde à pergunta: A longevidade é apenas para os ricos?
[the_ad id="145565"] No episódio desta semana do StrictlyVC Download, a Editora Chefe do TechCrunch, Connie Loizos, e Alex Gove, da StrictlyVC, recebem o empreendedor,…
OpenAI irá lançar modelo de código aberto à medida que a economia da IA força uma mudança estratégica
[the_ad id="145565"] Certainly! Here’s the rewritten content in Portuguese while maintaining the HTML tags: <div> <div id="boilerplate_2682874"…
$40 bilhões para o fogo: À medida que a OpenAI ganha um milhão de usuários por hora, a corrida pela dominância em IA corporativa acelera em um novo nível.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder de indústria.…