Bolt42

Ontem, a NVIDIA lançou um hotfix crítico para conter os efeitos de uma versão anterior do driver que causou alarme nas comunidades de IA e jogos ao fazer com que sistemas reportassem incorretamente temperaturas seguras da GPU – mesmo quando as demandas de resfriamento subiam silenciosamente em direção a níveis potencialmente críticos.

No post oficial da NVIDIA sobre o lançamento do hotfix, embora apenas o terceiro na lista de correções mencionadas, o problema é citado como ‘As utilidades de monitoramento da GPU podem parar de relatar a temperatura da GPU após o PC sair do modo de espera’.

Logo após o lançamento do driver Game Ready afetado 576.02, um tópico fixado no sub-Reddit Stable Diffusion, intitulado Leia para salvar sua GPU!, tornou-se um recurso para questões anedóticas e atualizações relatadas por usuários sobre o novo driver. A partir disso, e de outros relatos na web, uma linha do tempo dos problemas emergentes pode ser estabelecida.

O primeiro relato do bug no Reddit parece ter ocorrido no final da tarde de sexta-feira UTC, no sub-reddit ZephyrusG14, onde o usuário fricy81 citou um post nos fóruns da NVIDIA (arquivado):

Um usuário nos fóruns da NVIDIA encontra problemas após a atualização 576.02. Fonte: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

Um usuário nos fóruns da NVIDIA encontra problemas após a atualização 576.02. Fonte: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-grd-57602-feedback-thread-released-41625/3524072/

O usuário nos fóruns da NVIDIA relatou que, após instalar a atualização do driver, ferramentas como MSI Afterburner e monitores em jogos, como o de Call of Duty (que geralmente acessam leituras nativas do sistema, assim como o painel de GPU do Gerenciador de Tarefas no Windows), pararam de atualizar as leituras de temperatura da GPU, congelando em torno de 35-36°C.

Reiniciar o software de monitoramento não teve efeito, afirmou o usuário, e apenas uma reinicialização completa do sistema restauraria as leituras precisas. Ferramentas como HWInfo e o próprio aplicativo de monitoramento da NVIDIA continuaram a relatar as temperaturas corretamente. O usuário enfatizou que o problema ocorreu durante o uso normal, não apenas após despertar o sistema do modo de espera.

O feedback dos usuários em vários fóruns destacou uma interrupção geral no comportamento normal da curva de ventilação e uma alteração na regulação térmica do núcleo, resultando em unidades de processamento gráfico funcionando em temperaturas inesperadamente altas e superaquecendo alarmantemente sob o que seria considerado cargas operacionais padrão, conforme detalhado neste comentário:

‘Eu percebi que algo estava errado. O tempo lá fora provavelmente estava em torno de 12°C, mas eu estava cozinhando no meu quarto. Minha janela estava aberta e eu não sentia diferença. Todos os ventiladores estavam rodando no máximo, e as temperaturas pareciam boas a princípio—em torno de 20°C a 22°C após jogar por um tempo.

‘No início, isso parecia normal—até o dia seguinte, quando percebi que essas não eram temperaturas de inatividade, e os ventiladores ainda estavam [ativados].

‘Eu tinha feito um overclocking de IA após corrigir algumas coisas recentemente, então não tinha certeza se os valores haviam simplesmente subido muito. Isso já aconteceu antes depois de instalar o ASUS AI Suite 3 – as configurações do BIOS não funcionavam nem corretamente por causa disso.

‘De qualquer forma, eu resolvi voltar para um driver anterior por enquanto.’

Sub-Óptimo

O PDF de lançamento oficial do driver 576.02 oferece algumas pistas sobre mudanças que podem ter contribuído para os novos problemas. Na seção 5.5, a NVIDIA reconhece que a temperatura da GPU pode ser relatada de forma incorreta em sistemas Optimus, mostrando especificamente zero graus quando nenhuma aplicação está sendo executada.

A Seção 5.5 das notas oficiais da atualização 576.02 aborda problemas de monitoramento de temperatura que parecem ter afetado um número maior de sistemas do que apenas o sistema Optimus. Fonte: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

A Seção 5.5 das notas oficiais da atualização 576.02 aborda problemas de monitoramento de temperatura que parecem ter afetado um número maior de sistemas do que apenas o sistema Optimus. Fonte: https://us.download.nvidia.com/Windows/576.02/576.02-win11-win10-release-notes.pdf

O lançamento afirma:

5.5 Temperatura da GPU relatada incorretamente em sistemas Optimus

5.5.1 Problema

Em sistemas Optimus, ferramentas de monitoramento de temperatura como Speccy ou GPU-Z relatam que a temperatura da GPU NVIDIA é zero quando nenhuma aplicação está sendo executada.

5.5.2 Explicação

Em sistemas Optimus, quando a GPU NVIDIA não está sendo utilizada, ela é colocada em um estado de baixo consumo de energia. Isso faz com que as ferramentas de monitoramento de temperatura retornem valores incorretos. Acordar a GPU para consultar a temperatura resultaria em medições sem sentido porque a temperatura da GPU muda como resultado.

Essas ferramentas só relatarão temperaturas precisas quando a GPU estiver acordada e em funcionamento.

A NVIDIA Optimus é uma tecnologia de troca de GPU que alterna entre gráficos integrados e discretos com base nas demandas do aplicativo, a fim de equilibrar automaticamente desempenho e consumo de energia, projetada para conservar a vida útil da bateria e reduzir o consumo de energia. Para tarefas como jogos ou reprodução de vídeo em HD, o Optimus ativa a GPU discreta para melhor desempenho; durante atividades mais leves, como navegação na web, reverte para gráficos integrados (onboard).

A atualização parece ter estendido um comportamento anteriormente limitado a sistemas Optimus, permitindo que a GPU afetada entrasse em um estado de baixo consumo de energia enquanto estava inativa, mesmo quando não estava hospedada em um sistema Optimus, afetando assim o relatório de temperatura em ferramentas de terceiros.

Ajuste de Risco

Na maioria dos cenários, é justo dizer que a VBIOS da placa de vídeo provavelmente teria evitado danos permanentes à GPU. A VBIOS aplica limites térmicos e de potência em nível de firmware, independentemente do driver.

Portanto, mesmo que um driver cause comportamento inadequado do ventilador ou relatar temperaturas incorretas, a VBIOS ainda deve limitar o desempenho, aumentar a atividade do ventilador ou desligar a GPU para prevenir falhas de hardware.

Isso não quer dizer que o risco foi trivial – temperaturas elevadas sustentadas podem degradar o desempenho ao longo do tempo ou estressar componentes adjacentes; além disso, na ausência de um entendimento comum de que um driver atualizado causou um problema (não menos em sistemas onde os drivers atualizam ‘silenciosamente’), uma questão dessa natureza poderia enganar uma grande proporção de usuários afetados, que podem tentar remédios para problemas inexistentes, ou até mesmo potencialmente causar danos a seus sistemas ao aplicar ‘correções’ não relevantes.

O comportamento falho causado pela atualização 576.02 foi particularmente alarmante para aqueles envolvidos em fluxos de trabalho de inteligência artificial, onde hardware de alto desempenho é rotineiramente levado ao seu limite térmico por longos períodos.

O driver problemático 576.02 inspirou uma onda mais ampla de reclamações após seu lançamento em meados de abril, apesar dos relatórios iniciais de que oferecia algumas melhorias de desempenho. Não obstante a disponibilização do hotfix, e o nível de perturbação que o 576.02 parece ter causado, no momento da escrita ainda está disponível para download* no site da NVIDIA.

Consequências

Em termos das consequências da atualização defeituosa, há diversos tipos de danos ou incômodos relatados: o usuário Frankie_T9000 relatou que sua GPU travou ao iniciar devido ao acúmulo de calor sob a atualização defeituosa, e só estabilizou após undervolting. Ele comentou ‘parece que não está permanentemente danificada, mas preciso repor a pasta térmica o mais rápido possível (tenho pads a caminho na quarta-feira) suspeito que a pasta térmica antiga tenha envelhecido mais pelo acúmulo de calor, então estou colocando nova pasta e pads.

Ontem, outro usuário no mesmo tópico declarou: ‘Estou usando uma curva de ventilação personalizada com MSI Afterburner, e ele mostrava constantemente que minhas temperaturas de GPU estavam em 27°C, então os ventiladores não ligaram, o que levou a problemas de superaquecimento. Pensei que era um problema meu, mas após instalar o driver anterior tudo voltou a funcionar bem novamente. Além disso, as temperaturas não são exibidas corretamente no gerenciador de tarefas.’

Embora a NVIDIA (como afirma persistentemente em cada lançamento de hotfix) frequentemente forneça hotfixes para jogos ou plataformas específicas, o risco de danos por calor à GPU é maior para praticantes de IA do que para gamers, uma vez que processos intensivos de aprendizado de máquina, como treinamento ou inferência sustentada, colocam uma GPU sob carga constante a longo prazo – um evento que provavelmente seria acionado apenas periodicamente em um jogo, que pode ‘picoar’ em uso elevado para uma batalha de chefe ou uma seção de mapa particularmente exigente, mas que é projetado, de outra forma, como um compromisso entre a exploração da GPU e a estabilidade do sistema.

 

* Arquivo: https://archive.ph/ylVR1

Primeira publicação na terça-feira, 22 de abril de 2025


    catorze − seis =

    Bolt42