Sure! Here’s the rewritten content in Portuguese, keeping the HTML tags intact:
<div>
<div id="boilerplate_2682874" class="post-boilerplate boilerplate-before"><!-- wp:paragraph -->
<p><em>Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais</em></p>
<!-- /wp:paragraph -->
<!-- wp:separator {"opacity":"css","className":"is-style-wide"} -->
<hr class="wp-block-separator has-css-opacity is-style-wide"/>
<!-- /wp:separator --></div><p>A startup francesa de IA <a target="_blank" href="https://pleias.fr/" target="_blank" rel="noreferrer noopener">Pleias</a> causou impacto no final do ano passado com o <a target="_blank" href="https://huggingface.co/blog/Pclanglais/common-models">lançamento de sua família de modelos de linguagem pequenos, Pleias 1.0, treinados eticamente</a> — um dos primeiros e únicos até hoje a serem construídos inteiramente a partir da coleta de dados “abertos”, ou seja, dados explicitamente rotulados como domínio público, código aberto ou não licenciados e não protegidos por direitos autorais.</p>
<p>Agora, a empresa anunciou <a target="_blank" href="https://x.com/Dorialexander/status/1915413526807797911" target="_blank" rel="noreferrer noopener">o lançamento</a> de dois modelos de raciocínio de código aberto em pequena escala, projetados especificamente para geração aumentada por recuperação (RAG), síntese de citações e saída multilíngue estruturada.</p>
<p>O lançamento inclui dois modelos principais — Pleias-RAG-350M e Pleias-RAG-1B — cada um também disponível no formato GGUF otimizado para CPU, totalizando quatro variantes prontas para implantação.</p>
<p>Todos são baseados no Pleias 1.0 e podem ser utilizados de forma independente ou em conjunto com outros LLMs que a organização já possua ou planeje implantar. Todos parecem estar disponíveis sob uma licença de código aberto permissiva, Apache 2.0, o que significa que <em>são</em> elegíveis para que organizações possam pegar, modificar e implantar para casos de uso comerciais.</p>
<p>RAG, como você deve lembrar, é a técnica amplamente utilizada que empresas e organizações podem implantar para conectar um modelo de linguagem de grande escala (LLM), como o GPT-4 da OpenAI, o Gemini 2.5 Flash do Google, o Claude Sonnet 3.7 da Anthropic ou o Command-A da Cohere, ou alternativas de código aberto como Llama 4 e DeepSeek V3 a bases de conhecimento externas, como documentos empresariais e armazenamentos em nuvem.</p>
<p>Isso é muitas vezes necessário para empresas que desejam construir chatbots e outros aplicativos de IA que façam referência a suas políticas internas ou catálogos de produtos (uma alternativa, que consiste em fornecer a um LLM de longo contexto todas as informações necessárias, pode não ser adequada para casos de uso corporativos onde a segurança e os custos de transmissão por token são preocupações).</p>
<p>A família de modelos Pleias-RAG é o mais recente esforço para fechar a lacuna entre precisão e eficiência em modelos de linguagem pequenos.</p>
<p>Esses modelos são voltados para empresas, desenvolvedores e pesquisadores em busca de alternativas econômicas a modelos de linguagem em larga escala, sem comprometer a rastreabilidade, capacidades multilíngues ou fluxos de trabalho de raciocínio estruturado.</p>
<p>A base de usuários-alvo é, na verdade, o continente natal da Pleias, a Europa, como informou o cofundador Alexander Doria ao VentureBeat via mensagem direta na rede social X:</p>
<p><em>“Uma motivação principal tem sido a dificuldade de escalar aplicações RAG na Europa. A maioria das organizações privadas tem pouco poder de GPU (pode ter mudado, mas não muito tempo atrás menos de 2% de todas as [Nvidia] H100 [GPUs] estavam na Europa). E, no entanto, simultaneamente, há um forte incentivo para auto-hospedar por razões regulatórias, incluindo o GDPR.</em></p>
<p>“<em>Os SLMs progrediram significativamente no último ano, no entanto, muitas vezes são concebidos como ‘mini-chatbots’ e observamos uma queda significativa de desempenho em idiomas não ingleses, tanto em termos de compreensão da fonte quanto na qualidade da geração de texto. Portanto, estamos satisfeitos em cumprir a maioria de nossos objetivos: </em></p>
<ul class="wp-block-list">
<li><em>Uma alternativa real aos modelos de 7-8 bilhões para RAG, mesmo em CPU e outras infraestruturas limitadas. </em></li>
<li><em>Modelos totalmente verificáveis que vêm com suporte a citações. </em></li>
<li><em>Preservação do desempenho em idiomas europeus.”</em></li>
</ul>
<p>No entanto, é claro que os modelos sendo de código aberto sob a licença Apache 2.0 significa que qualquer um pode pegá-los e usá-los livremente em qualquer lugar do mundo.</p>
<h2 class="wp-block-heading" id="h-focused-on-grounding-citations-and-facts">Focado em fundamentação, citações e fatos</h2>
<p>Uma característica fundamental dos novos modelos Pleias-RAG é seu suporte nativo para citação de fontes com citações literais, totalmente integradas no processo de inferência do modelo.</p>
<p>Ao contrário dos métodos de citação post-hoc ou de pipelines de fragmentação externa, os modelos Pleias-RAG geram citações diretamente, usando uma sintaxe inspirada no formato de referência da Wikipedia.</p>
<p>Essa abordagem permite trechos de citações mais curtos e legíveis, mantendo a verificabilidade.</p>
<p>A fundamentação de citações desempenha um papel funcional em ambientes regulados.</p>
<p>Para setores como saúde, jurídico e finanças — onde a tomada de decisões deve ser documentada e rastreável — essas referências embutidas oferecem um caminho direto para a auditabilidade. A Pleias posiciona essa escolha de design como um imperativo ético, alinhando-se com as crescentes demandas regulatórias por IA explicável.</p>
<h2 class="wp-block-heading" id="h-proto-agentic">Proto agentic?</h2>
<p>Os modelos Pleias-RAG são descritos como “proto-agentic” — eles podem avaliar autonomamente se uma consulta é compreensível, determinar se é trivial ou complexa e decidir se devem responder, reformular ou recusar a resposta com base na adequação da fonte.</p>
<p>A saída estruturada inclui detecção de idioma, análise de consulta e fonte, e uma resposta fundamentada.</p>
<p>Apesar de seu tamanho relativamente pequeno (Pleias-RAG-350M possui apenas 350 milhões de parâmetros), os modelos exibem comportamentos tradicionalmente associados a sistemas maiores e agenticos.</p>
<p>De acordo com a Pleias, essas capacidades resultam de um pipeline de treinamento especializado que combina geração de dados sintéticos com prompts de raciocínio iterativos.</p>
<p>Pleias-RAG-350M foi projetado explicitamente para ambientes restritos. Desempenha bem em CPUs padrão, incluindo infraestrutura de classe móvel.</p>
<p>De acordo com benchmarks internos, a versão GGUF não quantizada produz saídas de raciocínio completas em cerca de 20 segundos em configurações de 8GB de RAM. Seu pequeno tamanho a coloca em um nicho com poucos concorrentes, como Qwen-0.5 e SmolLM, mas com uma ênfase muito maior na síntese de fontes estruturadas.</p>
<h2 class="wp-block-heading" id="h-competitive-performance-across-tasks-and-languages">Desempenho competitivo em tarefas e idiomas</h2>
<p>Em avaliações de benchmark, Pleias-RAG-350M e Pleias-RAG-1B superam a maioria dos modelos de peso aberto abaixo de 4 bilhões de parâmetros, incluindo Llama-3.1-8B e Qwen-2.5-7B, em tarefas como HotPotQA, 2WikiMultiHopQA e MuSiQue.</p>
<p>Esses benchmarks de RAG de múltiplas etapas testam a capacidade do modelo de raciocinar através de vários documentos e identificar distrações — requisitos comuns em sistemas de conhecimento de nível empresarial.</p>
<p>A força dos modelos se estende a cenários multilíngues. Em conjuntos de benchmarks traduzidos em francês, alemão, espanhol e italiano, os modelos Pleias mostram degradação negligenciável no desempenho.</p>
<p>Isso os diferencia de outros SLMs, que geralmente experienciam uma perda de desempenho de 10–35% ao lidar com consultas em idiomas não ingleses.</p>
<p>O suporte multilíngue decorre de um design cuidadoso do tokenizador e treinamento adversarial sintético que inclui exercícios de mudança de idioma. Os modelos não só detectam o idioma de uma consulta do usuário, mas buscam responder na mesma língua — uma característica importante para implantações globais.</p>
<p>Além disso, Doria destacou como os modelos poderiam ser usados para aumentar o desempenho de outros modelos existentes que uma empresa pode já estar utilizando:</p>
<p><em>“Nós imaginamos que os modelos serão utilizados em um cenário de orquestração, especialmente considerando que seu custo computacional é baixo. Um resultado muito interessante do lado da avaliação: mesmo o modelo de 350 milhões se mostrou bom em respostas completamente diferentes das respostas que [Meta] Llama e [Alibaba] Qwen estavam apresentando. Portanto, há uma real complementaridade que atribuímos ao nosso pipeline de raciocínio, que vai além da relação custo-efetividade”</em>…</p>
<h2 class="wp-block-heading" id="h-open-access-and-licensing">Acesso aberto e licenciamento</h2>
<p>De acordo com Doria e <a target="_blank" href="https://github.com/Pleias/Pleias-RAG-Library/blob/main/Pleias_RAG_Model_Family.pdf" target="_blank" rel="noreferrer noopener">um artigo técnico</a> que detalha o treinamento da família Pleias-RAG, os modelos foram treinados em:<em> “Common Corpus para criar o conjunto de treinamento RAG (todos os 3 milhões de exemplos vieram dele). Usamos [Google] Gemma para geração de traços de raciocínio sintéticos, já que a licença permitia reutilização/re-treinamento.”</em></p>
<p>Ambos os modelos são lançados sob a licença Apache 2.0, permitindo reutilização comercial e integração em sistemas maiores.</p>
<p>A Pleias enfatiza a adequação dos modelos para integração em assistentes aumentados por busca, ferramentas educacionais e sistemas de suporte ao usuário. A empresa também fornece uma biblioteca de API para simplificar a formatação de entrada e saída estruturada para desenvolvedores.</p>
<p>O lançamento dos modelos faz parte de um esforço mais amplo da Pleias para reposicionar pequenos LLMs como ferramentas para raciocínio estruturado, em vez de bots conversacionais de propósito geral.</p>
<p>Aproveitando uma arquitetura de memória externa e métodos sistemáticos de citação, a série Pleias-RAG oferece uma alternativa transparente e auditável aos modelos de fronteira mais opacos.</p>
<h2 class="wp-block-heading" id="h-future-outlook">Perspectivas futuras</h2>
<p>Olhando para o futuro, a Pleias planeja expandir as capacidades dos modelos através de manipulação de contexto mais longo, melhor integração de busca e ajuste de personalidade para uma apresentação de identidade mais consistente.</p>
<p>O aprendizado por reforço também está sendo explorado, particularmente em domínios como a precisão da citação, onde a verificação de citações pode ser medida algoritmicamente.</p>
<p>A equipe também está colaborando ativamente com parceiros como a Fundação Wikimedia para apoiar integrações de busca direcionadas usando fontes confiáveis.</p>
<p>Por fim, o uso atual de implementações específicas de RAG, modelos e fluxos de trabalho pode sucumbir à medida que modelos de IA mais avançados sejam treinados e implantados, aqueles que incorporam o uso nativo de RAG e ferramentas agenticas. Como Doria disse ao VentureBeat via DM:</p>
<p>“<em>A longo prazo, minha convicção é que tanto o pipeline RAG clássico quanto os modelos de longo contexto serão disruptados por agentes de busca. Começamos a nos mover nessa direção: é por isso que o modelo já vem equipado com muitos recursos que atualmente estão externalizados em aplicações RAG (reformulação de consultas, reclassificação, etc.). Obviamente, temos como objetivo avançar e integrar capacidades de busca e processamento de fontes diretamente no modelo. Minha convicção é que o RAG desaparecerá de certa forma à medida que for automatizado por modelos agenticos capazes de dirigir seus próprios fluxos de trabalho.</em>“</p>
<p>Com o Pleias-RAG-350M e 1B, a empresa aposta que modelos pequenos — quando combinados com uma estrutura de raciocínio forte e saídas verificáveis — podem competir com concorrentes muito maiores, especialmente em implantações multilíngues e com infraestrutura limitada.</p>
<div id="boilerplate_2660155" class="post-boilerplate boilerplate-after"><!-- wp:shortcode -->
<div class="Boilerplate__newsletter-container vb">
<div class="Boilerplate__newsletter-main">
<p><strong>Inscrições diárias sobre casos de uso empresarial com o VB Daily</strong></p>
<p class="copy">Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós fornecemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.</p>
<p class="Form__newsletter-legal">Leia nossa Política de Privacidade</p>
<p class="Form__success" id="boilerplateNewsletterConfirmation">
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
</p>
<p class="Form__error">Ocorreu um erro.</p>
</div>
<div class="image-container">
<img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt=""/>
</div>
</div>
<!-- /wp:shortcode --></div>
</div>
Se precisar de mais alguma coisa, é só avisar!
Conteúdo relacionado
Imagens Autoautenticadas Através de Compressão JPEG Simples
[the_ad id="145565"] Preocupações sobre os riscos representados por imagens adulteradas têm surgido regularmente nas pesquisas nos últimos anos, especialmente à luz de um novo…
O CEO da Perplexity afirma que seu navegador irá monitorar tudo o que os usuários fazem online para vender anúncios ‘hiper personalizados’
[the_ad id="145565"] A Perplexity não quer apenas competir com o Google, ela aparentemente quer ser o Google. O CEO Aravind Srinivas disse esta semana no podcast TBPN que uma…
A OpenAI lança uma versão ‘leve’ de sua ferramenta de pesquisa profunda ChatGPT.
[the_ad id="145565"] A OpenAI está lançando uma nova versão "leve" de sua ferramenta de pesquisa profunda ChatGPT, que vasculha a web para compilar relatórios de pesquisa sobre…