Here’s the rewritten content in Portuguese, preserving the HTML structure:
<div>
<div id="boilerplate_2682874" class="post-boilerplate boilerplate-before"><!-- wp:paragraph -->
<p><em>Inscreva-se em nossos boletins diários e semanais para receber as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder na indústria. Saiba Mais</em></p>
<!-- /wp:paragraph -->
<!-- wp:separator {"opacity":"css","className":"is-style-wide"} -->
<hr class="wp-block-separator has-css-opacity is-style-wide"/>
<!-- /wp:separator -->
</div>
<p>A Universidade da Califórnia, Santa Cruz, anunciou a <a target="_blank" href="https://ucsc-vlaa.github.io/OpenVision/" target="_blank" rel="noreferrer noopener">lançamento do OpenVision</a>, uma família de codificadores de visão que visa fornecer uma nova alternativa a modelos, incluindo <a target="_blank" href="https://huggingface.co/google/siglip-large-patch16-256" target="_blank" rel="noreferrer noopener">o CLIP de quatro anos da OpenAI</a> e <a target="_blank" href="https://www.linkedin.com/posts/huggingface_siglip-by-google-a-better-clip-model-is-activity-7151879069037457409-7eLD/" target="_blank" rel="noreferrer noopener">o</a> <a target="_blank" href="https://huggingface.co/google/siglip-large-patch16-256">SigLIP do Google do ano passado</a>.</p>
<p>Um codificador de visão é um tipo de modelo de IA que transforma material visual e arquivos — tipicamente imagens estáticas enviadas pelos criadores do modelo — em dados numéricos que podem ser compreendidos por outros modelos de IA não visuais, como modelos de linguagem grandes (LLMs). Um codificador de visão é um componente necessário para permitir que muitos LLMs líderes trabalhem com imagens enviadas pelos usuários, possibilitando que um LLM identifique diferentes sujeitos de imagem, cores, locais e mais características dentro de uma imagem.</p>
<p>Assim, o OpenVision, com sua <a target="_blank" href="https://github.com/UCSC-VLAA/OpenVision/blob/main/LICENSE" target="_blank" rel="noreferrer noopener">licença permissiva Apache 2.0</a> e uma família de <a target="_blank" href="https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919" target="_blank" rel="noreferrer noopener">26 (!) modelos diferentes</a> variando entre 5,9 milhões de parâmetros a 632,1 milhões de parâmetros, permite que qualquer desenvolvedor ou criador de modelos de IA dentro de uma empresa ou organização utilize e implemente um codificador que pode ser usado para ingerir tudo, desde imagens em um canteiro de obras até uma máquina de lavar usada pelo usuário, permitindo que um modelo de IA ofereça orientações e solução de problemas, ou inúmeras outras aplicações. A licença Apache 2.0 permite o uso em aplicações comerciais.</p>
<p>Os modelos foram desenvolvidos por uma equipe <a target="_blank" href="https://x.com/cihangxie/status/1920575141849030882" target="_blank" rel="noreferrer noopener">liderada por Cihang Xie</a>, professor assistente na UCSC, juntamente com os colaboradores Xianhang Li, Yanqing Liu, Haoqin Tu e Hongru Zhu.</p>
<p>O projeto se baseia no pipeline de treinamento do CLIP e utiliza o conjunto de dados Recap-DataComp-1B, uma versão relegendada de um corpus de imagens da web em grande escala usando modelos de linguagem baseados em LLaVA.</p>
<h2 class="wp-block-heading" id="h-scalable-architecture-for-different-enterprise-deployment-use-cases">Arquitetura escalável para diferentes casos de uso de implantação empresarial</h2>
<p>O design do OpenVision suporta múltiplos casos de uso.</p>
<p>Modelos maiores são adequados para cargas de trabalho em servidores que requerem alta precisão e compreensão visual detalhada, enquanto variantes menores — algumas com apenas 5,9M de parâmetros — são otimizadas para implantações em dispositivos de borda onde o computacional e a memória são limitados.</p>
<p>Os modelos também suportam tamanhos de patch adaptáveis (8×8 e 16×16), permitindo trocas configuráveis entre resolução de detalhe e carga computacional.</p>
<h2 class="wp-block-heading" id="h-strong-results-across-multimodal-benchmarks">Resultados fortes em benchmarks multimodais</h2>
<p>Em uma série de benchmarks, o OpenVision demonstra resultados robustos em várias tarefas de visão-linguagem.</p>
<p>Embora benchmarks tradicionais do CLIP, como ImageNet e MSCOCO, continuem fazendo parte do conjunto de avaliações, a equipe do OpenVision aconselha a não confiar apenas nessas métricas.</p>
<p>Seus experimentos mostram que um bom desempenho em classificação ou recuperação de imagens não se traduz necessariamente em sucesso em raciocínio multimodal complexo. Em vez disso, a equipe defende uma cobertura mais ampla de benchmarks e protocolos de avaliação abertos que reflitam melhor os casos de uso multimodal do mundo real.</p>
<p>Avaliações foram realizadas usando duas estruturas multimodais padrão — LLaVA-1.5 e Open-LLaVA-Next — e mostraram que os modelos do OpenVision consistentemente igualam ou superam tanto o CLIP quanto o SigLIP em tarefas como TextVQA, ChartQA, MME e OCR.</p>
<figure class="wp-block-image size-large is-resized"><img fetchpriority="high" decoding="async" width="1576" height="1796" src="https://venturebeat.com/wp-content/uploads/2025/05/openvision_teaser_v1.3.png?w=527" alt="" class="wp-image-3007351" style="width:840px;height:auto" /></figure>
<p>Na configuração LLaVA-1.5, os codificadores do OpenVision treinados na resolução de 224×224 obtiveram pontuações superiores às do CLIP da OpenAI em tarefas de classificação e recuperação, bem como em avaliações posteriores, como SEED, SQA e POPE.</p>
<p>Em resoluções de entrada mais altas (336×336), o OpenVision-L/14 superou o CLIP-L/14 na maioria das categorias. Mesmo os modelos menores, como OpenVision-Small e Tiny, mantiveram uma precisão competitiva enquanto usavam significativamente menos parâmetros.</p>
<h2 class="wp-block-heading" id="h-efficient-progressive-training-reduces-compute-costs">Treinamento progressivo eficiente reduz custos computacionais</h2>
<p>Uma característica notável do OpenVision é sua estratégia de treinamento em resolução progressiva, adaptada do CLIPA. Os modelos começam o treinamento em imagens de baixa resolução e são progressivamente ajustados em altas resoluções.</p>
<p>Isso resulta em um processo de treinamento mais eficiente em termos computacionais — frequentemente 2 a 3 vezes mais rápido do que o CLIP e o SigLIP — sem perda de desempenho em tarefas posteriores.</p>
<p><a target="_blank" href="https://www.baeldung.com/cs/ml-ablation-study">Estudos de ablação</a> — onde componentes de um modelo de aprendizado de máquina são removidos seletivamente para identificar sua importância ou falta dela para seu funcionamento — confirmam ainda mais os benefícios dessa abordagem, com os maiores ganhos de desempenho observados em tarefas sensíveis a detalhes em alta resolução, como OCR e perguntas visuais baseadas em gráficos.</p>
<p>Outro fator no desempenho do OpenVision é o uso de legendas sintéticas e um decodificador de texto auxiliar durante o treinamento.</p>
<p>Essas escolhas de design permitem que o codificador de visão aprenda representações semanticamente mais ricas, melhorando a precisão em tarefas de raciocínio multimodal. Remover qualquer um dos componentes levou a quedas consistentes de desempenho em testes de ablação.</p>
<h2 class="wp-block-heading" id="h-optimized-for-lightweight-systems-and-edge-computing-use-cases">Otimizado para sistemas leves e casos de uso de computação em borda</h2>
<p>O OpenVision também foi projetado para funcionar de maneira eficaz com pequenos modelos de linguagem.</p>
<p>Em um experimento, um codificador de visão foi emparelhado com um Smol-LM de 150M de parâmetros para construir um modelo multimodal completo com menos de 250M de parâmetros.</p>
<figure class="wp-block-image size-large"><img decoding="async" width="904" height="326" src="https://venturebeat.com/wp-content/uploads/2025/05/GqdBweHXgAEG1iw-1.jpg?w=800" alt="" class="wp-image-3007352" /></figure>
<p>Apesar do tamanho reduzido, o sistema manteve uma precisão robusta em uma série de tarefas de VQA, entendimento de documentos e raciocínio.</p>
<p>Essa capacidade sugere um forte potencial para implantações em borda ou restritas em recursos, como smartphones de consumo ou câmeras e sensores de fabricação no local.</p>
<h2 class="wp-block-heading" id="h-why-openvision-matters-to-enterprise-technical-decision-makers">Por que o OpenVision é importante para tomadores de decisão técnica em empresas</h2>
<p>A abordagem totalmente aberta e modular do OpenVision ao desenvolvimento de codificadores de visão tem implicações estratégicas para equipes empresariais que trabalham em engenharia de IA, orquestração, infraestrutura de dados e segurança.</p>
<p>Para engenheiros que supervisionam o desenvolvimento e a implantação de LLMs, o OpenVision oferece uma solução plug-and-play para integrar capacidades de visão de alto desempenho sem depender de APIs de terceiros opacas ou licenças de modelo restritas.</p>
<p>Essa abertura permite uma otimização mais rigorosa dos pipelines de visão-linguagem e garante que dados proprietários nunca saiam do ambiente da organização.</p>
<p>Para engenheiros focados na criação de estruturas de orquestração de IA, o OpenVision fornece modelos em uma ampla gama de escalas de parâmetros — desde codificadores ultracompactos adequados para dispositivos de borda até modelos maiores e de alta resolução adequados para pipelines em nuvem de múltiplos nós.</p>
<p>Essa flexibilidade torna mais fácil projetar fluxos de trabalho MLOps escaláveis e eficientes em termos de custo, sem comprometer a precisão específica da tarefa. Seu suporte ao treinamento em resolução progressiva também permite uma alocação mais inteligente de recursos durante o desenvolvimento, o que é especialmente benéfico para equipes que operam sob restrições orçamentárias rigorosas.</p>
<p>Engenheiros de dados podem aproveitar o OpenVision para potencializar pipelines analíticos ricos em imagens, onde dados estruturados são complementados com entradas visuais (por exemplo, documentos, gráficos, imagens de produtos). Como o zoológico de modelos suporta várias resoluções de entrada e tamanhos de patch, as equipes podem experimentar trocas entre fidelidade e desempenho sem precisar retrainar desde o início. A integração com ferramentas como PyTorch e Hugging Face simplifica a implantação do modelo em sistemas de dados existentes.</p>
<p>Enquanto isso, a arquitetura transparente do OpenVision e o pipeline de treinamento reproduzível permitem que equipes de segurança avaliem e monitorem modelos em busca de potenciais vulnerabilidades — ao contrário de APIs opacas onde o comportamento interno é inacessível.</p>
<p>Quando implantados no local, esses modelos evitam os riscos de vazamento de dados durante a inferência, o que é crítico em indústrias regulamentadas que lidam com dados visuais sensíveis, como IDs, formulários médicos ou registros financeiros.</p>
<p>Em todos esses papéis, o OpenVision ajuda a reduzir o bloqueio de fornecedor e traz os benefícios da moderna IA multimodal para fluxos de trabalho que exigem controle, personalização e transparência operacional. Ele dá às equipes empresariais a base técnica para construir aplicações competitivas aprimoradas por IA — em seus próprios termos.</p>
<h2 class="wp-block-heading" id="h-open-for-business">Aberto para negócios</h2>
<p>O zoológico de modelos OpenVision está disponível em implementações tanto em PyTorch quanto em JAX, e a equipe também lançou utilitários para integração com frameworks populares de visão-linguagem.</p>
<p>Com este lançamento, os modelos podem ser <a target="_blank" href="https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919">baixados do Hugging Face</a>, e receitas de treinamento são publicamente postadas para total reprodutibilidade.</p>
<p>Ao fornecer uma alternativa transparente, eficiente e escalável para codificadores proprietários, o OpenVision oferece aos pesquisadores e desenvolvedores uma base flexível para avançar em aplicações de visão-linguagem. Seu lançamento marca um passo significativo na busca por uma infraestrutura multimodal aberta — especialmente para aqueles que desejam construir sistemas de alto desempenho sem acesso a dados fechados ou pipelines de treinamento pesados em recursos.</p>
<p>Para documentação completa, benchmarks e downloads, visite a <a target="_blank" href="https://ucsc-vlaa.github.io/OpenVision/">página do projeto OpenVision</a> ou o <a target="_blank" href="https://github.com/UCSC-VLAA/OpenVision">repositório do GitHub</a>.</p>
<div id="boilerplate_2660155" class="post-boilerplate boilerplate-after"><!-- wp:shortcode -->
<div class="Boilerplate__newsletter-container vb">
<div class="Boilerplate__newsletter-main">
<p><strong>Insights diários sobre casos de uso de negócios com o VB Daily</strong></p>
<p class="copy">Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Oferecemos as informações mais profundas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.</p>
<p class="Form__newsletter-legal">Leia nossa Política de Privacidade</p>
<p class="Form__success" id="boilerplateNewsletterConfirmation">
Obrigado por se inscrever. Veja mais boletins do VB aqui.
</p>
<p class="Form__error">Ocorreu um erro.</p>
</div>
<div class="image-container">
<img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt=""/>
</div>
</div>
<!-- /wp:shortcode -->
</div>
</div>
Feel free to reach out for further modifications!
Conteúdo relacionado
Sakana apresenta nova arquitetura de IA, ‘Máquinas de Pensamento Contínuo’, para fazer modelos raciocinarem com menos orientação — como cérebros humanos.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder de inteligência…
Administração Trump revoga oficialmente as regras de difusão de IA de Biden.
[the_ad id="145565"] Após uma semana de rumores, o Departamento de Comércio dos EUA (DOC) rescindiu formalmente a Regra de Difusão de Inteligência Artificial da administração…
Anaconda Lança a Primeira Plataforma de IA Unificada para Open Source, Redefinindo o Desenvolvimento de IA de Nível Empresarial
[the_ad id="145565"] Em um anúncio histórico para a comunidade de IA de código aberto, Anaconda Inc, um líder de longa data em ciência de dados baseada em Python, lançou a…