Bolt42

Sure! Here’s the rewritten content in Portuguese while keeping the HTML tags intact:

<div>
    <div id="boilerplate_2682874" class="post-boilerplate boilerplate-before"><!-- wp:paragraph -->
<p><em>Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais</em></p>
<!-- /wp:paragraph -->

<!-- wp:separator {"opacity":"css","className":"is-style-wide"} -->
<hr class="wp-block-separator has-css-opacity is-style-wide"/>
<!-- /wp:separator --></div>
<p>Enquanto a Meta enfrenta questões e críticas sobre sua nova família de modelos Llama 4, a mestre em unidades de processamento gráfico (GPU), Nvidia, lançou um novo modelo de linguagem de código aberto totalmente disponibilizado, baseado no modelo mais antigo da Meta, o Llama-3.1-405B-Instruct. A empresa afirma que o novo modelo apresenta desempenho próximo ao de topo em uma variedade de benchmarks de terceiros, superando o aclamado modelo de raciocínio de código aberto DeepSeek R1.</p>

<p>O Llama-3.1-Nemotron-Ultra-253B-v1 é um modelo denso de 253 bilhões de parâmetros, projetado para suportar raciocínio avançado, seguimento de instruções e fluxos de trabalho de assistente de IA. Seu primeiro anúncio foi durante a Conferência Anual de Tecnologia de GPU (GTC) da Nvidia, em março.</p>

<p>O lançamento reflete o foco contínuo da Nvidia na otimização de desempenho por meio de inovações arquitetônicas e pós-treinamento direcionado.</p>

<p>Anunciado na noite de ontem, 7 de abril de 2025, o <a target="_blank" href="https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1#evaluation-results">código do modelo agora está disponível publicamente no Hugging Face</a>, com pesos abertos e dados de pós-treinamento. O modelo é projetado para operar de forma eficiente em modos de "raciocínio ligado" e "raciocínio desligado", permitindo que desenvolvedores alternem entre tarefas de raciocínio de alta complexidade e saídas mais simples com base em prompts do sistema.</p>

<h2 class="wp-block-heading" id="h-designed-for-efficient-inference">Projetado para inferência eficiente</h2>

<p>O Llama-3.1-Nemotron-Ultra-253B baseia-se no trabalho anterior da Nvidia no desenvolvimento de LLMs otimizados para inferência. Sua arquitetura — personalizada por meio de um processo de Pesquisa de Arquitetura Neural (NAS) — introduz variações estruturais, como camadas de atenção puladas, redes neurais alimentadas fusionadas (FFNs) e razões de compressão variáveis de FFN.</p>

<p>Essa reformulação arquitetônica reduz a pegada de memória e as demandas computacionais sem impactar significativamente a qualidade da saída, permitindo a implantação em um único nó de GPU H100 8x.</p>

<p>Segundo a Nvidia, o resultado é um modelo que oferece desempenho robusto enquanto é mais econômico para implantação em ambientes de data center. A compatibilidade de hardware adicional inclui apoio às microarquiteturas B100 e Hopper da Nvidia, com configurações validadas em modos de precisão BF16 e FP8.</p>

<h2 class="wp-block-heading" id="h-post-training-for-reasoning-and-alignment">Pós-treinamento para raciocínio e alinhamento</h2>

<p>A Nvidia aprimorou o modelo base por meio de um pipeline de pós-treinamento multifásico. Isso incluiu ajuste fino supervisionado em domínios como matemática, geração de código, chat e uso de ferramentas, seguido de aprendizado por reforço com Otimização de Política Relativa em Grupo (GRPO) para aumentar ainda mais o seguimento de instruções e o desempenho de raciocínio.</p>

<p>O modelo passou por uma fase de destilação de conhecimento sobre 65 bilhões de tokens, seguida de um pré treinamento contínuo em outros 88 bilhões de tokens.</p>

<p>Os conjuntos de dados de treinamento incluíram fontes como FineWeb, Buzz-V1.2 e Dolma. Os prompts e respostas pós-treinamento foram extraídos de uma combinação de corpora públicos e métodos de geração sintética, incluindo conjuntos de dados que ensinaram o modelo a diferenciar entre seus modos de raciocínio.</p>

<h2 class="wp-block-heading" id="h-improved-performance-across-numerous-domains-and-benchmarks">Desempenho melhorado em diversos domínios e benchmarks</h2>

<p>Os resultados da avaliação mostram ganhos notáveis quando o modelo opera em modo de raciocínio ativado. Por exemplo, no benchmark MATH500, o desempenho aumentou de 80,40% no modo padrão para 97,00% com raciocínio ativado.</p>

<p>Da mesma forma, os resultados no benchmark AIME25 subiram de 16,67% para 72,50%, e as pontuações do LiveCodeBench mais que dobraram, saltando de 29,03% para 66,31%.</p>

<p>Melhorias de desempenho também foram observadas em tarefas baseadas em ferramentas, como BFCL V2 e composição de funções, assim como em questões gerais (GPQA), onde o modelo marcou 76,01% no modo de raciocínio em comparação a 56,60% sem.</p>

<p>Esses benchmarks foram realizados com um comprimento máximo de sequência de 32.000 tokens, e cada teste foi repetido até 16 vezes para garantir a precisão.</p>

<p>Comparado ao <a target="_blank" href="https://huggingface.co/deepseek-ai/DeepSeek-R1#4-evaluation-results" target="_blank" rel="noreferrer noopener">DeepSeek R1, um modelo MoE de última geração com 671 bilhões de parâmetros totais</a>, o Llama-3.1-Nemotron-Ultra-253B mostra resultados competitivos, apesar de ter menos da metade do número de parâmetros (configurações do modelo) — superando em tarefas como GPQA (76,01 vs. 71,5), avaliação de seguimento de instruções IFEval (89,45 vs. 83,3) e tarefas de codificação do LiveCodeBench (66,31 vs. 65,9).</p>

<p>Por outro lado, o DeepSeek R1 tem uma clara vantagem em certas avaliações matemáticas, especialmente no AIME25 (79,8 vs. 72,50) e ligeiramente supera o MATH500 (97,3 vs. 97,00).</p>

<p>Esses resultados sugerem que, apesar de ser um modelo denso, a oferta da Nvidia iguala ou supera alternativas MoE em tarefas de raciocínio e alinhamento geral de instruções, embora fique um pouco atrás em categorias pesadas em matemática.</p>

<h2 class="wp-block-heading" id="h-usage-and-integration">Uso e integração</h2>

<p>O modelo é compatível com a biblioteca Transformers do Hugging Face (versão 4.48.3 recomendada) e suporta sequências de entrada e saída de até 128.000 tokens.</p>

<p>Os desenvolvedores podem controlar o comportamento de raciocínio por meio de prompts do sistema e selecionar estratégias de decodificação baseadas nas exigências da tarefa.</p>

<p>Para tarefas de raciocínio, a Nvidia recomenda o uso de amostragem de temperatura (0,6) com um valor de top-p de 0,95. Para saídas determinísticas, a decodificação gulosa é preferida.</p>

<p>O Llama-3.1-Nemotron-Ultra-253B suporta aplicações multilíngues, com capacidades em inglês e várias outras línguas, incluindo alemão, francês, italiano, português, hindi, espanhol e tailandês.</p>

<p>Ele também é adequado para casos de uso comuns de LLM, como desenvolvimento de chatbots, fluxos de trabalho de agentes de IA, geração aumentada por recuperação (RAG) e geração de código.</p>

<h2 class="wp-block-heading" id="h-licensed-for-commercial-use">Licenciado para uso comercial</h2>

<p>Lançado sob a Licença Open Model da Nvidia e regido pelo Acordo de Licença da Comunidade Llama 3.1, o modelo está pronto para uso comercial.</p>

<p>A Nvidia enfatizou a importância do desenvolvimento responsável de IA, encorajando as equipes a avaliar o alinhamento, a segurança e os perfis de viés do modelo para seus casos de uso específicos.</p>

<p>Oleksii Kuchaiev, Diretor de Pós-Treinamento de Modelos de IA da Nvidia, <a target="_blank" href="https://x.com/kuchaev/status/1909444566379573646" target="_blank" rel="noreferrer noopener">compartilhou o anúncio no X</a>, afirmando que a equipe estava entusiasmada em compartilhar o lançamento aberto, descrevendo-o como um modelo denso de 253B projetado com capacidades de raciocínio ON/OFF e lançado com pesos abertos e dados.</p>
<div id="boilerplate_2660155" class="post-boilerplate boilerplate-after"><!-- wp:shortcode -->
        <div class="Boilerplate__newsletter-container vb">
            <div class="Boilerplate__newsletter-main">
                <p><strong>Insights diários sobre casos de uso empresarial com o VB Daily</strong></p>
                <p class="copy">Se você quer impressionar seu chefe, o VB Daily tem tudo que você precisa. Oferecemos uma visão aprofundada sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um máximo de ROI.</p>

                <p class="Form__newsletter-legal">Leia nossa Política de Privacidade</p>
                <p class="Form__success" id="boilerplateNewsletterConfirmation">
                    Obrigado por se inscrever. Confira mais newsletters do VB aqui.
                </p>
                <p class="Form__error">Ocorreu um erro.</p>
            </div>

                            <div class="image-container">
                    <img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt=""/>
                </div>

        </div>

<!-- /wp:shortcode --></div>
</div>

This translated content maintains the original HTML structure and provides the same information in Portuguese.


    dezessete − três =

    Bolt42