Bolt42

Embora os Grandes Modelos de Linguagem e Visão (LVLMs) possam ser auxiliares úteis na interpretação de algumas das submissões mais obscuras ou desafiadoras na literatura de visão computacional, há uma área em que eles estão limitados: determinar os méritos e a qualidade subjetiva de quaisquer exemplos de vídeo que acompanham novos artigos*.

Esse é um aspecto crítico de uma submissão, já que artigos científicos muitas vezes buscam gerar entusiasmo por meio de textos ou visuais convincentes – ou ambos.

Mas no caso de projetos que envolvem síntese de vídeo, os autores devem mostrar o resultado em vídeo real ou arriscar que seu trabalho seja descartado; e é nessas demonstrações que a lacuna entre reivindicações ousadas e desempenho no mundo real mais frequentemente se torna aparente.

Eu Li o Livro, Não Vi o Filme

Atualmente, a maioria dos populares Modelos de Linguagem Baseados em API (LLMs) e Modelos de Linguagem e Visão de Grande Escala (LVLMs) não se envolverá na análise direta do conteúdo de vídeo de nenhuma maneira, qualitativa ou de outra forma. Em vez disso, eles podem apenas analisar transcrições relacionadas – e, talvez, tópicos de comentários e outros materiais adjuntos estritamente textuais.

As diversas objeções de GPT-4o, Google Gemini e Perplexity, ao serem solicitados a analisar diretamente vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.

As diversas objeções de GPT-4o, Google Gemini e Perplexity, ao serem solicitados a analisar diretamente vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.

No entanto, um LLM pode esconder ou negar sua incapacidade de realmente assistir vídeos, a menos que você o chame para isso:

Após ser solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa e ter forjado uma opinião real, ChatGPT-4o acaba confessando que não pode realmente ver vídeos diretamente.

Após ser solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa e ter forjado uma opinião real, ChatGPT-4o acaba confessando que não pode realmente ver vídeos diretamente.

Embora modelos como ChatGPT-4o sejam multimodais e possam pelo menos analisar fotos individuais (como um quadro extraído de um vídeo, veja a imagem acima), há algumas questões mesmo com isso: em primeiro lugar, há pouca base para dar credibilidade à opinião qualitativa de um LLM, não menos porque os LLMs são propensos a ‘agradar as pessoas’ em vez de um discurso sincero.

Em segundo lugar, muitos, senão a maioria, dos problemas de um vídeo gerado provavelmente possuem um aspecto temporal que é totalmente perdido em uma captura de quadro – e assim a análise de quadros individuais não serve a nenhum propósito.

Finalmente, o LLM só pode dar um suposto ‘juízo de valor’ baseado (mais uma vez) na absorção de conhecimento baseado em texto, por exemplo, em relação a imagens deepfake ou história da arte. Nesse caso, o conhecimento treinado na área permite que o LLM correlacione qualidades visuais analisadas de uma imagem com embeddings aprendidos com base em insights humanos:

O projeto FakeVLM oferece detecção dirigida de deepfakes por meio de um modelo de visão-linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905

O projeto FakeVLM oferece detecção dirigida de deepfakes por meio de um modelo de visão-linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905

Isso não quer dizer que um LLM não possa obter informações diretamente de um vídeo; por exemplo, com o uso de sistemas adjuntos de IA como YOLO, um LLM poderia identificar objetos em um vídeo – ou poderia fazê-lo diretamente, se treinado para um número acima da média de funcionalidades multimodais.

Mas a única maneira pela qual um LLM poderia avaliar subjetivamente um vídeo (ou seja, ‘Isso não parece real para mim’) é aplicando um métrico baseado em função de perda que é conhecido por refletir bem a opinião humana ou é diretamente informado pela opinião humana.

As funções de perda são ferramentas matemáticas utilizadas durante o treinamento para medir o quão longe as previsões de um modelo estão das respostas corretas. Elas fornecem feedback que orienta o aprendizado do modelo: quanto maior o erro, maior a perda. À medida que o treinamento avança, o modelo ajusta seus parâmetros para reduzir essa perda, melhorando gradualmente sua capacidade de fazer previsões precisas.

As funções de perda são usadas tanto para regular o treinamento de modelos, quanto para calibrar algoritmos que são projetados para avaliar a saída de modelos de IA (como a avaliação de conteúdo fotorealista simulado a partir de um modelo generativo de vídeo).

Visão Condicional

Uma das métricas/funções de perda mais populares é a Distância de Fréchet Inception (FID), que avalia a qualidade de imagens geradas medindo a similaridade entre sua distribuição (que aqui significa ‘como as imagens são espalhadas ou agrupadas por características visuais’) e a de imagens reais.

Especificamente, o FID calcula a diferença estatística, usando médias e covariâncias, entre características extraídas de ambos os conjuntos de imagens usando a (frequentemente criticada) rede de classificação Inception v3. Um menor ponto FID indica que as imagens geradas são mais semelhantes às imagens reais, implicando melhor qualidade visual e diversidade.

No entanto, o FID é essencialmente comparativo e, argumentativamente, autodeclaratório por natureza. Para remediar isso, a abordagem posterior de Distância Fréchet Condicional (CFD, 2021) difere do FID ao comparar imagens geradas com imagens reais, e avaliar uma pontuação com base em quão bem ambos os conjuntos se encaixam em uma condição adicional, como uma (inevitavelmente subjetiva) etiqueta de classe ou imagem de entrada.

Dessa forma, o CFID leva em consideração quão precisamente as imagens atendem às condições pretendidas, não apenas sua realismo geral ou diversidade entre si.

Exemplos da edição CFD 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/

Exemplos da edição CFD 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/

O CFD segue uma tendência recente de incorporar a interpretação qualitativa humana nas funções de perda e algoritmos métricos. Embora tal abordagem centrada no humano garanta que o algoritmo resultante não seja ‘sem alma’ ou meramente mecânico, ela apresenta ao mesmo tempo uma série de questões: a possibilidade de viés; o fardo de atualizar o algoritmo de acordo com novas práticas e o fato de que isso removerá a possibilidade de padrões comparativos consistentes ao longo de anos em diferentes projetos; e limitações orçamentárias (menos colaboradores humanos tornam as determinações mais duvidosas, enquanto um maior número pode prevenir atualizações úteis devido a custo).

cFreD

Isso nos traz a um novo artigo dos EUA que aparentemente oferece Distância Fréchet Condicional (cFreD), uma abordagem nova sobre o CFD que é projetada para refletir melhor as preferências humanas ao avaliar tanto a qualidade visual quanto o alinhamento texto-imagem.

Resultados parciais do novo artigo: classificações de imagem (1–9) por diferentes métricas para o prompt 'Uma sala de estar com um sofá e um laptop descansando no sofá.' Verde destaca o modelo melhor avaliado pelos humanos (FLUX.1-dev), roxo o pior (SDv1.5). Apenas cFreD corresponde às classificações humanas. Consulte o artigo de origem para resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721

Resultados parciais do novo artigo: classificações de imagem (1–9) por diferentes métricas para o prompt “Uma sala de estar com um sofá e um laptop descansando no sofá.” Verde destaca o modelo melhor avaliado pelos humanos (FLUX.1-dev), roxo o pior (SDv1.5). Apenas cFreD corresponde às classificações humanas. Consulte o artigo de origem para resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721

Os autores argumentam que os métodos de avaliação existentes para síntese texto-imagem, como Inception Score (IS) e FID, estão mal alinhados com o julgamento humano porque apenas medem a qualidade da imagem sem considerar como as imagens correspondem a seus prompts:

‘Por exemplo, considere um conjunto de dados com duas imagens: uma de um cachorro e outra de um gato, cada uma emparelhada com seu respectivo prompt. Um modelo de texto-para-imagem perfeito que erroneamente troca esses mapeamentos (ou seja, gerando um gato para um prompt de cachorro e vice-versa) alcançaria quase zero FID, já que a distribuição geral de gatos e cachorros é mantida, apesar da desalinhanção com os prompts pretendidos.’

‘Nós mostramos que cFreD captura melhor a avaliação de qualidade de imagem e condicionamento no texto de entrada e resulta em melhor correlação com as preferências humanas.’

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente uma correlação mais alta com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente uma correlação mais alta com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).

Conceito e Método

Os autores observam que o padrão ouro atual para avaliar modelos texto-imagem envolve reunir dados de preferência humana por meio de comparações feitas em massa, semelhantes aos métodos usados para grandes modelos de linguagem (como a Arena LMSys).

Por exemplo, a Arena PartiPrompts usa 1.600 prompts em inglês, apresentando aos participantes pares de imagens de diferentes modelos e pedindo a eles que selecionem a imagem preferida.

Da mesma forma, a Leaderboard da Arena de Texto-para-Imagens emprega comparações de usuários dos resultados dos modelos para gerar classificações por meio de pontuações ELO. No entanto, coletar esse tipo de dados de avaliação humana é custoso e demorado, levando algumas plataformas – como a Arena PartiPrompts – a cessar as atualizações por completo.

O Leaderboard da Arena de Imagem da Análise Artificial, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

O Leaderboard da Arena de Análise Artificial, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Embora métodos alternativos treinados em dados históricos de preferência humana existam, sua eficácia para avaliar modelos futuros permanece incerta, pois as preferências humanas evoluem continuamente. Consequentemente, métricas automatizadas como FID, CLIPScore, e a proposta do cFreD parecem provavelmente continuar sendo ferramentas de avaliação cruciais.

Os autores assumem que tanto as imagens reais quanto as geradas condicionadas a um prompt seguem distribuições gaussianas, cada uma definida por médias e covariâncias condicionais. O cFreD mede a distância Fréchet esperada entre esses conjuntos condicionais entre essas distribuições condicionais. Isso pode ser formulado diretamente em termos de estatísticas condicionais ou combinando estatísticas incondicionais com cross-covariâncias envolvendo o prompt.

Ao incorporar o prompt dessa forma, o cFreD é capaz de avaliar tanto o realismo das imagens quanto sua consistência com o texto dado.

Dados e Testes

Para avaliar quão bem o cFreD se correlaciona com as preferências humanas, os autores usaram classificações de imagem de múltiplos modelos solicitados com o mesmo texto. Sua avaliação foi baseada em duas fontes: o conjunto de teste Human Preference Score v2 (HPDv2), que inclui nove imagens geradas e uma imagem COCO de referência por prompt; e a mencionada Arena PartiPrompts, que contém resultados de quatro modelos em 1.600 prompts.

Os autores coletaram os dados dispersos da Arena em um único conjunto de dados; em casos em que a imagem real não classificou mais alta nas avaliações humanas, usaram a imagem melhor avaliada como referência.

Para testar modelos mais novos, eles amostraram 1.000 prompts dos conjuntos de treinamento e validação do COCO, garantindo que não houvesse sobreposição com o HPDv2, e geraram imagens usando nove modelos do Leaderboard da Arena. As imagens reais do COCO serviram como referências nesta parte da avaliação.

A abordagem cFreD foi avaliada por meio de quatro métricas estatísticas: FID; FDDINOv2; CLIPScore; e CMMD. Também foi avaliada contra quatro métricas aprendidas treinadas em dados de preferência humana: Aesthetic Score; ImageReward; HPSv2; e MPS.

Os autores avaliaram a correlação com o julgamento humano tanto de uma perspectiva de classificação quanto de pontuação: para cada métrica, as pontuações do modelo foram relatadas e as classificações calculadas para seu alinhamento com os resultados da avaliação humana, com o cFreD usando DINOv2-G/14 para embeddings de imagem e o OpenCLIP ConvNext-B Text Encoder para embeddings de texto†.

O trabalho anterior sobre aprendizado de preferências humanas mediu o desempenho usando precisão de classificação por item, que calcula a precisão de classificação para cada par imagem-texto antes de averiguar os resultados.

Os autores, em vez disso, avaliaram o cFreD usando uma precisão de classificação global, que avalia o desempenho de classificação geral ao longo do conjunto de dados completo; para métricas estatísticas, derivaram as classificações diretamente das pontuações brutas; e para as métricas treinadas em preferências humanas, primeiro averiguaram as classificações atribuídas a cada modelo em todas as amostras, e depois determinaram a classificação final a partir dessas médias.

Os testes iniciais usaram dez frameworks: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; e LAFITE.

Classificações e pontuações dos modelos no conjunto de teste HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Melhores resultados são apresentados em negrito, o segundo melhor é sublinhado.

Classificações e pontuações dos modelos no conjunto de teste HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Melhores resultados são apresentados em negrito, o segundo melhor é sublinhado.

Sobre os resultados iniciais, os autores comentam:

‘cFreD atinge o mais alto alinhamento com as preferências humanas, alcançando uma correlação de 0.97. Entre as métricas estatísticas, o cFreD atinge a mais alta correlação e é comparável ao HPSv2 (0.94), um modelo explicitamente treinado em preferências humanas. Considerando que o HPSv2 foi treinado no conjunto de dados de treinamento HPSv2, que inclui quatro modelos do conjunto de teste, e utilizou os mesmos avaliadores, ele codifica inerentemente viéses de preferência humana específicos do mesmo contexto.’

‘Em contraste, o cFreD alcança uma correlação comparável ou superior com a avaliação humana sem qualquer treinamento em preferências humanas.’

‘Esses resultados demonstram que o cFreD fornece classificações mais confiáveis em diversos modelos em comparação com métricas automáticas padrão e métricas treinadas explicitamente em dados de preferência humana.’

Entre todas as métricas avaliadas, o cFreD alcançou a mais alta precisão de classificação (91.1%), demonstrando – os autores sustentam – forte alinhamento com os julgamentos humanos.

O HPSv2 seguiu com 88.9%, enquanto o FID e o FDDINOv2 produziram pontuações competitivas de 86.7%. Embora as métricas treinadas em dados de preferência humana geralmente tenham se alinhado bem com as avaliações humanas, o cFreD demonstrou ser o mais robusto e confiável no geral.

A seguir, vemos os resultados da segunda rodada de testes, desta vez na Arena PartiPrompts, utilizando SDXL; Kandinsky 2; Würstchen; e Karlo V1.0.

Classificações e pontuações dos modelos em PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward e MPS). Melhores resultados estão em negrito, e o segundo melhor está sublinhado.

Classificações e pontuações dos modelos em PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward e MPS). Melhores resultados estão em negrito, o segundo melhor está sublinhado.

Aqui o artigo declara:

‘Entre as métricas estatísticas, o cFreD alcança a maior correlação com as avaliações humanas (0.73), com FID e FDDINOv2 ambos alcançando uma correlação de 0.70. Em contraste, a pontuação CLIP mostra uma correlação muito baixa (0.12) com os julgamentos humanos.’

‘Na categoria treinada em preferências humanas, o HPSv2 tem o alinhamento mais forte, alcançando a maior correlação (0.83), seguido por ImageReward (0.81) e MPS (0.65). Esses resultados destacam que, enquanto o cFreD é uma métrica automática robusta, o HPSv2 se destaca como a mais eficaz em capturar tendências de avaliação humana na Arena PartiPrompts.’

Finalmente, os autores realizaram uma avaliação no conjunto de dados COCO usando nove modernos modelos texto-para-imagem: FLUX.1[dev]; Playgroundv2.5; Janus Pro; e variantes Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 e 1.5.

As classificações de preferência humana foram extraídas do Leaderboard de Texto-para-Imagens, e dadas como pontuações ELO:

Classificações dos modelos em prompts aleatórios do COCO usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0.5 indica pares mais discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Classificações dos modelos em prompts aleatórios do COCO usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0.5 indica pares mais discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Sobre esta rodada, os pesquisadores afirmam:

‘Entre as métricas estatísticas (FID, FDDINOv2, CLIP, CMMD e nossa proposta cFreD), apenas o cFreD apresenta uma forte correlação com as preferências humanas, alcançando uma correlação de 0.33 e uma precisão de classificação não trivial de 66.67%. ‘Esse resultado coloca o cFreD como a terceira métrica mais alinhada no geral, superada apenas pelas métricas treinadas em preferências humanas ImageReward, HPSv2 e MPS.’

‘Notavelmente, todas as outras métricas estatísticas mostram alinhamento consideravelmente mais fraco com as classificações de ELO e, como resultado, inverteram as classificações, levando a uma precisão de classificação abaixo de 0.5.’

‘Essas descobertas destacam que o cFreD é sensível tanto à fidelidade visual quanto à consistência do prompt, reforçando seu valor como uma alternativa prática e sem treinamento para benchmarking de geração texto-imagem.’

Os autores também testaram o Inception V3 como back-end, chamando a atenção para sua ubiquidade na literatura, e descobriram que o Inception V3 teve um desempenho razoável, mas foi superado por back-ends baseados em transformadores como o DINOv2-L/14 e ViT-L/16, que alinharam-se mais consistentemente com as classificações humanas – e sustentam que isso suporta a substituição do Inception V3 em configurações modernas de avaliação.

Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às classificações verdadeiras derivadas de humanos no conjunto de dados COCO.

Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às classificações verdadeiras derivadas de humanos no conjunto de dados COCO.

Conclusão

É claro que, enquanto soluções com participação humana são a abordagem ideal para o desenvolvimento de funções métricas e de perda, a escala e a frequência de atualizações necessárias para tais esquemas continuarão a torná-los impraticáveis – talvez até que o tempo em que a participação pública generalizada em avaliações seja geralmente incentivada; ou, como tem sido o caso com CAPTCHAs, imposto.

A credibilidade do novo sistema dos autores ainda depende de seu alinhamento com o julgamento humano, embora com um desvio a mais do que muitas abordagens recentes com participação humana; e, portanto, a legitimidade do cFreD permanece ainda nos dados de preferência humana (obviamente, uma vez que, sem tal referência, a afirmação de que o cFreD reflete a avaliação humana seria impugnada).

Argumentavelmente, consagrar nossos critérios atuais de ‘realismo’ na saída generativa em uma função métrica poderia ser um erro a longo prazo, uma vez que nossa definição desse conceito está atualmente sob ataque pela nova onda de sistemas de IA generativa e está prestes a sofrer revisões frequentes e significativas.

 

* Neste ponto, normalmente eu incluiria um exemplo exemplar de vídeo ilustrativo, talvez de uma submissão acadêmica recente; mas isso seria maldoso – qualquer um que tenha passado mais de 10-15 minutos vasculhando a produção de IA generativa do Arxiv já terá encontrado vídeos suplementares cuja qualidade subjetivamente pobre indica que a submissão relacionada não será celebrada como um artigo marcante.

No total, 46 modelos de backbone de imagem foram utilizados nos experimentos, não todos considerados nos resultados grafados. Consulte o apêndice do artigo para uma lista completa; aqueles apresentados nas tabelas e figuras foram listados.

 

Publicado pela primeira vez na terça-feira, 1º de abril de 2025


    oito + oito =

    Bolt42