Quando o raciocínio da IA dá errado: A pesquisa da Microsoft revela que mais tokens podem significar mais problemas

Sure! Here’s the rewritten content in Portuguese while keeping the HTML tags intact:
<div>
    <div id="boilerplate_2682874" class="post-boilerplate boilerplate-before"><!-- wp:paragraph -->
<p><em>Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais</em></p>
<!-- /wp:paragraph -->

<!-- wp:separator {"opacity":"css","className":"is-style-wide"} -->
<hr class="wp-block-separator has-css-opacity is-style-wide"/>
<!-- /wp:separator --></div><p>Os modelos de linguagem de grande escala (LLMs) estão se tornando cada vez mais capazes de raciocínio complexo por meio da “escala de tempo de inferência”, um conjunto de técnicas que alocam mais recursos computacionais durante a inferência para gerar respostas. No entanto, um <a target="_blank" href="https://www.microsoft.com/en-us/research/publication/inference-time-scaling-for-complex-tasks-where-we-stand-and-what-lies-ahead/" target="_blank" rel="noreferrer noopener">novo estudo</a> da Microsoft Research revela que a efetividade desses métodos de escala não é universal. Os aumentos de desempenho variam significativamente entre diferentes modelos, tarefas e complexidades de problemas.</p>

<p>A conclusão principal é que apenas aumentar a computação em um problema durante a inferência não garante resultados melhores ou mais eficientes. As descobertas podem ajudar as empresas a entender melhor a volatilidade de custos e a confiabilidade do modelo enquanto buscam integrar um raciocínio avançado de IA em suas aplicações.</p>

<h2 class="wp-block-heading" id="h-putting-scaling-methods-to-the-test">Testando métodos de escala</h2>

<p>A equipe da Microsoft Research conduziu uma análise empírica extensa em nove modelos de fundação de última geração. Isso incluiu tanto modelos “convencionais” como GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro e Llama 3.1 405B, quanto modelos especificamente ajustados para raciocínio aprimorado por meio da escala de tempo de inferência. Isso incluiu o o1 e o o3-mini da OpenAI, Claude 3.7 Sonnet da Anthropic, Gemini 2 Flash Thinking do Google e DeepSeek R1.</p>

<p>Eles avaliaram esses modelos usando três abordagens distintas de escala de tempo de inferência:</p>

<ol class="wp-block-list">
<li><strong>Cadência Padrão de Pensamento (CoT):</strong> O método básico onde o modelo é solicitado a responder passo a passo.</li>

<li><strong>Escala Paralela:</strong> O modelo gera várias respostas independentes para a mesma pergunta e utiliza um agregador (como votação majoritária ou seleção da melhor resposta) para chegar a um resultado final.</li>

<li><strong>Escala Sequencial:</strong> O modelo gera iterativamente uma resposta e utiliza feedback de um crítico (potencialmente do próprio modelo) para refinar a resposta em tentativas subsequentes.</li>
</ol>

<div class="wp-block-image">
<figure class="aligncenter size-large"><img fetchpriority="high" decoding="async" width="1192" height="1482" src="https://venturebeat.com/wp-content/uploads/2025/04/image_70ff62.png?w=483" alt="" class="wp-image-3004448"  /></figure></div>

<p>Essas abordagens foram testadas em oito conjuntos de dados de referência desafiadores cobrindo uma ampla gama de tarefas que se beneficiam da resolução de problemas passo a passo: raciocínio matemático e de STEM (AIME, Omni-MATH, GPQA), planejamento de calendário (BA-Calendar), problemas NP-difíceis (3SAT, TSP), navegação (Labirinto) e raciocínio espacial (SpatialMap).</p>

<p>Vários benchmarks incluíam problemas com níveis variados de dificuldade, permitindo uma compreensão mais matizada de como a escala se comporta à medida que os problemas se tornam mais difíceis.</p>

<p>“A disponibilidade de tags de dificuldade para Omni-MATH, TSP, 3SAT e BA-Calendar nos permite analisar como a precisão e o uso de tokens escalam com a dificuldade na escala de tempo de inferência, que é uma perspectiva ainda pouco explorada”, escreveram os pesquisadores no <a target="_blank" href="https://arxiv.org/abs/2504.00294v1" target="_blank" rel="noreferrer noopener">papel</a> que detalha suas descobertas.</p>

<p>Os pesquisadores avaliaram a fronteira de Pareto do raciocínio LLM analisando tanto a precisão quanto o custo computacional (ou seja, o número de tokens gerados). Isso ajuda a identificar como os modelos alcançam seus resultados de forma eficiente.</p>

<figure class="wp-block-image size-large"><img decoding="async" width="1244" height="584" src="https://venturebeat.com/wp-content/uploads/2025/04/image_ebef09.png?w=800" alt="Fronteira de Pareto da escala de tempo de inferência" class="wp-image-3004447"  /><figcaption class="wp-element-caption"><em>Fronteira de Pareto da escala de tempo de inferência Crédito: arXiv</em></figcaption></figure>

<p>Eles também introduziram a medida de “lacuna convencional-para-raciocínio”, que compara o melhor desempenho possível de um modelo convencional (usando uma seleção ideal de “melhor de N”) contra o desempenho médio de um modelo de raciocínio, estimando os ganhos potenciais que podem ser alcançados por meio de melhores técnicas de treinamento ou verificação.</p>

<h2 class="wp-block-heading" id="h-more-compute-isn-t-always-the-answer">Mais computação não é sempre a resposta</h2>

<p>O estudo forneceu várias percepções cruciais que desafiam suposições comuns sobre a escala de tempo de inferência:</p>

<p><strong>Os benefícios variam significativamente:</strong> Embora modelos ajustados para raciocínio geralmente superem os convencionais nessas tarefas, o grau de melhoria varia muito dependendo do domínio e da tarefa específica. Os ganhos frequentemente diminuem à medida que a complexidade do problema aumenta. Por exemplo, melhorias de desempenho observadas em problemas matemáticos não se traduziram sempre de forma equivalente em tarefas de raciocínio científico ou planejamento.</p>

<p><strong>Ineficácia de tokens é comum:</strong> Os pesquisadores observaram alta variabilidade no consumo de tokens, mesmo entre modelos que alcançam precisão semelhante. Por exemplo, no benchmark de matemática AIME 2025, o DeepSeek-R1 usou mais de cinco vezes mais tokens do que o Claude 3.7 Sonnet para uma precisão média aproximadamente comparável.</p>

<p><span style="box-sizing: border-box; margin: 0px; padding: 0px;"><strong>Mais tokens não levam a uma precisão maior:</strong> Contrariamente à ideia intuitiva de que cadeias de raciocínio mais longas significam um melhor raciocínio, o estudo descobriu que isso nem sempre é verdade.</span> “Surpreendentemente, também observamos que gerações mais longas em relação ao mesmo modelo podem, às vezes, ser um indicador de que os modelos estão enfrentando dificuldades, em vez de uma reflexão aprimorada,” afirma o artigo. “Da mesma forma, ao comparar diferentes modelos de raciocínio, o uso maior de tokens nem sempre está associado a uma melhor precisão. Essas descobertas motivam a necessidade de abordagens de escala mais intencionais e rentáveis.”</p>

<p><strong>Nondeterminismo de custos:</strong> Talvez o mais preocupante para usuários empresariais, consultas repetidas ao mesmo modelo para o mesmo problema podem resultar em um uso de tokens altamente variável. Isso significa que o custo de executar uma consulta pode flutuar significativamente, mesmo quando o modelo fornece consistentemente a resposta correta.</p>

<div class="wp-block-image">
<figure class="aligncenter size-large"><img decoding="async" width="1248" height="268" src="https://venturebeat.com/wp-content/uploads/2025/04/image_909607.png?w=800" alt="variância nas saídas do modelo" class="wp-image-3004449"  /><figcaption class="wp-element-caption"><em>Variância no comprimento da resposta (picos mostram menor variância) Crédito: arXiv</em></figcaption></figure></div>

<p><strong>O potencial em mecanismos de verificação:</strong> O desempenho da escala melhorou consistentemente em todos os modelos e benchmarks quando simulado com um “verificador perfeito” (usando os melhores resultados dentre N). </p>

<p><strong>Modelos convencionais às vezes se igualam a modelos de raciocínio:</strong> Ao aumentar significativamente as chamadas de inferência (até 50 vezes mais em alguns experimentos), modelos convencionais como GPT-4o poderiam às vezes se aproximar dos níveis de desempenho de modelos dedicados ao raciocínio, particularmente em tarefas menos complexas. No entanto, esses ganhos diminuíram rapidamente em configurações altamente complexas, indicando que a escala à força tem seus limites.</p>

<figure class="wp-block-image size-large"><img loading="lazy" decoding="async" width="1204" height="320" src="https://venturebeat.com/wp-content/uploads/2025/04/image_fe40bb.png?w=800" alt="Escala de tempo de inferência do GPT-4o" class="wp-image-3004450"  /><figcaption class="wp-element-caption"><em>Em algumas tarefas, a precisão do GPT-4o continua a melhorar com escalas paralela e sequencial. Crédito: arXiv</em></figcaption></figure>

<h2 class="wp-block-heading" id="h-implications-for-the-enterprise"><strong>Implicações para a empresa</strong></h2>

<p>Essas descobertas têm grande peso para desenvolvedores e adotantes empresariais de LLMs. A questão do “nondeterminismo de custo” é particularmente acentuada e torna o orçamento difícil. Como os pesquisadores apontam, “Idealmente, desenvolvedores e usuários prefeririam modelos para os quais a standard deviation (desvio padrão) do uso de tokens por instância é baixa para a previsibilidade de custos.”</p>

<p>“O perfilamento que fazemos [no estudo] poderia ser útil para desenvolvedores como uma ferramenta para escolher quais modelos são menos voláteis para o mesmo prompt ou para prompts diferentes,” disse Besmira Nushi, gerente principal de pesquisa sênior na Microsoft Research, ao VentureBeat. “Idealmente, alguém gostaria de escolher um modelo que tenha um desvio padrão baixo para entradas corretas.”</p>

<figure class="wp-block-image size-large"><img loading="lazy" decoding="async" width="1206" height="740" src="https://venturebeat.com/wp-content/uploads/2025/04/image_84c14a.png?w=800" alt="" class="wp-image-3004451"  /><figcaption class="wp-element-caption"><em>Modelos que se destacam em azul à esquerda geram consistentemente o mesmo número de tokens na tarefa dada Crédito: arXiv</em></figcaption></figure>

<p>O estudo também fornece boas percepções sobre a correlação entre a precisão de um modelo e o comprimento da resposta. Por exemplo, o diagrama a seguir mostra que consultas matemáticas acima de ~11.000 tokens têm uma chance muito slim de serem corretas, e essas gerações devem ser interrompidas nesse ponto ou reiniciadas com algum feedback sequencial. No entanto, Nushi aponta que modelos que permitem essas mitigações pós-hoc também têm uma separação mais limpa entre amostras corretas e incorretas.</p>

<figure class="wp-block-image size-full"><img loading="lazy" decoding="async" width="559" height="432" src="https://venturebeat.com/wp-content/uploads/2025/04/image001.png" alt="" class="wp-image-3004452"  /></figure>

<p“Em última análise, é também responsabilidade dos construtores de modelos pensar em como reduzir os problemas de precisão e custo não determinísticos, e esperamos que muito disso aconteça à medida que os métodos se tornem mais maduros,” disse Nushi. “Junto ao nondeterminismo de custo, o nondeterminismo de precisão também se aplica.”</p>

<p>Outra descoberta importante é o aumento consistente de desempenho com verificadores perfeitos, o que destaca uma área crítica para trabalho futuro: construir mecanismos de verificação robustos e amplamente aplicáveis.</p>

<p>“A disponibilidade de verificadores mais fortes pode ter diferentes tipos de impacto,” disse Nushi, como melhorar métodos de treinamento fundamentais para raciocínio. “Se usados de forma eficiente, esses também podem encurtar as trilhas de raciocínio.”</p>

<p>Verificadores fortes também podem se tornar uma parte central das soluções de IA agente para empresas. Muitos interessados do setor já têm esses verificadores em vigor, que podem precisar ser reaproveitados para soluções mais agente, como solucionadores de SAT, verificadores de validade logística, etc.</p>

<p>“As perguntas para o futuro são como tais técnicas existentes podem ser combinadas com interfaces movidas a IA e qual é a linguagem que conecta os dois,” disse Nushi. “A necessidade de conectar os dois vem do fato de que os usuários nem sempre formularão suas consultas de uma maneira formal, eles desejarão usar uma interface de linguagem natural e esperarão as soluções em um formato semelhante ou em uma ação final (por exemplo, propor um convite para uma reunião).”</p>

<div id="boilerplate_2660155" class="post-boilerplate boilerplate-after"><!-- wp:shortcode -->
    <div class="Boilerplate__newsletter-container vb">
        <div class="Boilerplate__newsletter-main">
            <p><strong>Insights diários sobre casos de uso comercial com o VB Daily</strong></p>
            <p class="copy">Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Oferecemos as informações por dentro sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights com o máximo de retorno sobre investimento.</p>

            <p class="Form__newsletter-legal">Leia nossa Política de Privacidade</p>
            <p class="Form__success" id="boilerplateNewsletterConfirmation">
                Obrigado por se inscrever. Confira mais newsletters do VB aqui.
            </p>
            <p class="Form__error">Ocorreu um erro.</p>
        </div>

        <div class="image-container">
            <img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt=""/>
        </div>

    </div>

<!-- /wp:shortcode --></div>            
</div>
Feel free to let me know if you need further modifications!
Conteúdo relacionado

BusinessInteligência artificial
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
BusinessInteligência artificial
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.

[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
BusinessInteligência artificial
Tudo o que você precisa saber sobre o chatbot de IA

[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…