Bolt42

Em fevereiro deste ano, o padrão internacional JPEG AI foi publicado, após vários anos de pesquisa que visavam utilizar técnicas de aprendizado de máquina para produzir um codec de imagem menor, mais fácil de transmitir e armazenar, sem perda na qualidade perceptual.

Do fluxo de publicação oficial para JPEG AI, uma comparação entre o Pico da Razão do Sinal ao Ruído (PSNR) e a abordagem aumentada por ML do JPEG AI. Fonte: https://jpeg.org/jpegai/documentation.html

Do fluxo de publicação oficial para JPEG AI, uma comparação entre o Pico da Razão do Sinal ao Ruído (PSNR) e a abordagem aumentada por ML do JPEG AI. Fonte: https://jpeg.org/jpegai/documentation.html

Uma possível razão pela qual esse surgimento não fez muitas manchetes é que os PDFs principais para este anúncio estavam (ironicamente) indisponíveis através de portais de acesso livre como o Arxiv. No entanto, o Arxiv já havia apresentado vários estudos examinando a importância do JPEG AI em diversos aspectos, incluindo os artefatos de compressão incomuns do método e sua significância para a análise forense.

Um estudo comparou os artefatos de compressão, incluindo aqueles de um rascunho anterior do JPEG AI, descobrindo que o novo método tinha uma tendência a borrar o texto – um assunto não menor em casos onde o codec pode contribuir para uma cadeia de evidências. Fonte: https://arxiv.org/pdf/2411.06810

Um estudo comparou os artefatos de compressão, incluindo aqueles de um rascunho anterior do JPEG AI, descobrindo que o novo método tinha uma tendência a borrar o texto – um assunto não menor em casos onde o codec pode contribuir para uma cadeia de evidências. Fonte: https://arxiv.org/pdf/2411.06810

Como o JPEG AI altera imagens de maneiras que imitam os artefatos de geradores de imagens sintéticas, as ferramentas forenses existentes têm dificuldade em diferenciar imagens reais de fake:

Após a compressão JPEG AI, algoritmos de última geração já não conseguem separar de forma confiável o conteúdo autêntico das regiões manipuladas em mapas de localização, de acordo com um artigo recente (março de 2025). Os exemplos de origem vistos à esquerda são imagens manipuladas/falsas, nas quais as regiões adulteradas são claramente delineadas sob técnicas forenses padrão (imagem do meio). No entanto, a compressão JPEG AI confere às imagens falsas uma camada de credibilidade (imagem à extrema direita). Fonte: https://arxiv.org/pdf/2412.03261

Após a compressão JPEG AI, algoritmos de última geração já não conseguem separar de forma confiável o conteúdo autêntico das regiões manipuladas em mapas de localização, de acordo com um artigo recente (março de 2025). Os exemplos de origem vistos à esquerda são imagens manipuladas/falsas, nas quais as regiões adulteradas são claramente delineadas sob técnicas forenses padrão (imagem do meio). No entanto, a compressão JPEG AI confere às imagens falsas uma camada de credibilidade (imagem à extrema direita). Fonte: https://arxiv.org/pdf/2412.03261

Uma razão é que o JPEG AI é treinado usando uma arquitetura de modelo semelhante àquelas usadas por sistemas generativos que as ferramentas forenses tentam detectar:

O novo artigo ilustra a semelhança entre as metodologias da compressão de imagem impulsionada por IA e as imagens geradas por IA. Fonte: https://arxiv.org/pdf/2504.03191

O novo artigo ilustra a semelhança entre as metodologias da compressão de imagens impulsionadas por IA e as imagens geradas por IA. Fonte: https://arxiv.org/pdf/2504.03191

Portanto, ambos os modelos podem produzir algumas características visuais subjacentes semelhantes, do ponto de vista forense.

Quantização

Esse crossover ocorre devido à quantização, comum a ambas as arquiteturas, e que é usada no aprendizado de máquina tanto como um método de conversão de dados contínuos em pontos de dados discretos, quanto como uma técnica de otimização que pode reduzir significativamente o tamanho do arquivo de um modelo treinado (entusiastas casuais de síntese de imagem estarão familiarizados com a espera entre um lançamento oficial inconveniente do modelo e uma versão quantizada liderada pela comunidade que pode ser executada no hardware local).

Neste contexto, a quantização refere-se ao processo de conversão dos valores contínuos na representação latente da imagem em etapas discretas fixas. O JPEG AI utiliza esse processo para reduzir a quantidade de dados necessária para armazenar ou transmitir uma imagem ao simplificar a representação numérica interna.

Ainda que a quantização torne a codificação mais eficiente, também impõe regularidades estruturais que podem se assemelhar aos artefatos deixados por modelos generativos – sutis o suficiente para evadir a percepção, mas disruptivos para ferramentas forenses.

Em resposta, os autores de um novo trabalho intitulado Três Cues Forenses para Imagens JPEG AI propõem técnicas interpretáveis e não-neurais que detectam a compressão JPEG AI; determinam se uma imagem foi recomprimida; e distinguem entre imagens reais comprimidas e aquelas geradas inteiramente por IA.

Método

Correlações de Cores

O artigo propõe três ‘cues forenses’ adaptados para imagens JPEG AI: correlações de canais de cores, introduzidas durante as etapas de pré-processamento do JPEG AI; distorções mensuráveis na qualidade da imagem através de compressões repetidas que revelam eventos de recompressão; e padrões de quantização no espaço latente que ajudam a distinguir entre imagens comprimidas pelo JPEG AI e aquelas geradas por modelos de IA.

Em relação à abordagem baseada em correlação de cores, o pipeline de pré-processamento do JPEG AI introduz dependências estatísticas entre os canais de cores da imagem, criando uma assinatura que pode servir como um indicativo forense.

O JPEG AI converte imagens RGB para o espaço de cores YUV e realiza subsampling de croma 4:2:0, que envolve a redução da amostragem dos canais de crominância antes da compressão. Esse processo leva a correlações sutis entre os resíduos de alta frequência dos canais vermelho, verde e azul – correlações que não estão presentes em imagens não comprimidas, e que diferem em força das produzidas pela compressão JPEG tradicional ou por geradores de imagens sintéticas.

Uma comparação de como a compressão JPEG AI altera correlações de cores em imagens, usando o canal vermelho como exemplo. O painel (a) compara imagens não comprimidas com as comprimidas pelo JPEG AI, mostrando que a compressão aumenta significativamente a correlação inter-canal. O painel (b) isola o efeito da pré-processamento do JPEG AI – apenas a conversão de cores e subsampling – demonstrando que mesmo essa etapa isoladamente aumenta as correlações perceptivelmente. O painel (c) mostra que a compressão JPEG tradicional também aumenta as correlações levemente, mas não na mesma medida. O painel (d) examina imagens sintéticas, com Midjourney-V5 e Firefly mostrando aumentos moderados de correlação, enquanto outras permanecem mais próximas dos níveis não comprimidos.

Uma comparação de como a compressão JPEG AI altera correlações de cores em imagens.

O painel A compara imagens não comprimidas com aquelas comprimidas pelo JPEG AI, mostrando que a compressão aumenta significativamente a correlação inter-canal; o painel B isola o efeito do pré-processamento do JPEG AI – apenas a conversão de cores e subsampling – demonstrando que mesmo essa etapa sozinha aumenta as correlações de forma perceptível; o painel C mostra que a compressão JPEG tradicional também aumenta as correlações levemente, mas não na mesma intensidade; e o painel D examina imagens sintéticas, com Midjourney-V5 e Adobe Firefly mostrando aumentos moderados de correlação, enquanto outras permanecem mais próximas dos níveis não comprimidos.

Taxa-Distorção

A cue de taxa-distorção identifica a recompressão JPEG AI rastreando como a qualidade da imagem, medida pelo Pico da Razão do Sinal ao Ruído (PSNR), diminui em um padrão previsível ao longo de múltiplos passes de compressão.

A pesquisa afirma que a compressão repetida de uma imagem com JPEG AI leva a perdas de qualidade progressivamente menores, mas ainda mensuráveis, na qualidade da imagem, conforme quantificado pelo PSNR, e que essa degradação gradual forma a base de um cue forense para detectar se uma imagem foi recomprimida.

Diferente do JPEG tradicional, onde métodos anteriores rastreavam mudanças em blocos de imagem específicos, o JPEG AI requer uma abordagem diferente, devido à sua arquitetura de compressão neural; portanto, os autores propõem monitorar como tanto a taxa de bits quanto o PSNR evoluem ao longo de compressões sucessivas. Cada rodada de compressão altera a imagem menos do que a anterior, e essa mudança decrescente (quando plotada contra a taxa de bits) pode revelar se uma imagem passou por múltiplas etapas de compressão:

Uma ilustração de como a compressão repetida afeta a qualidade da imagem em diferentes codecs mostra que tanto o JPEG AI quanto um codec neural desenvolvido em https://arxiv.org/pdf/1802.01436 exibem uma queda constante no PSNR com cada compressão adicional - mesmo em taxas de bits mais baixas. Em contraste, o JPEG tradicional mantém qualidade relativamente estável ao longo de múltiplas compressões, a menos que a taxa de bits seja alta. Esse padrão serve como um exemplo de como a recompressão deixa uma trilha mensurável em codecs baseados em IA, oferecendo um sinal forense potencial.

Uma ilustração de como a compressão repetida afeta a qualidade da imagem em diferentes codecs, apresentando resultados do JPEG AI e de um codec neural desenvolvido em https://arxiv.org/pdf/1802.01436; ambos exibem uma queda constante no PSNR com cada compressão adicional, mesmo em taxas de bits mais baixas. Em contraste, a compressão JPEG tradicional mantém qualidade relativamente estável ao longo de múltiplas compressões, a menos que a taxa de bits seja alta.

No exemplo acima, vemos curvas de taxa-distorção mapeadas para JPEG AI; um segundo codec baseado em IA; e JPEG tradicional, descobrindo que o JPEG AI e o codec neural mostram uma queda consistente no PSNR em todas as taxas de bits, enquanto o JPEG tradicional mostra uma degradação notável apenas em taxas de bits muito mais altas. Esse comportamento fornece um sinal mensurável que pode ser usado para sinalizar imagens recomprimidas de JPEG AI.

Extraindo como a taxa de bits e a qualidade da imagem evoluem ao longo de várias rodadas de compressão, os autores também construíram uma assinatura que ajuda a sinalizar se uma imagem foi recomprimida, proporcionando uma possível pista forense prática no contexto do JPEG AI.

Quantização

Como vimos anteriormente, um dos problemas forenses mais desafiadores levantados pelo JPEG AI é sua semelhança visual com imagens sintéticas geradas por modelos de difusão. Ambos os sistemas utilizam arquiteturas de codificador-decodificador que processam imagens em um espaço latente comprimido e frequentemente deixam para trás artefatos sutis de upsampling.

Essas características compartilhadas podem confundir detectores – mesmo aqueles re-treinados em imagens JPEG AI. No entanto, uma diferença estrutural chave permanece: o JPEG AI aplica quantização, uma etapa que arredonda valores latentes para níveis discretos para uma compressão eficiente, enquanto modelos generativos geralmente não fazem isso.

O novo artigo utiliza essa distinção para projetar um cue forense que testa indiretamente a presença de quantização. O método analisa como a representação latente de uma imagem responde ao arredondamento, assumindo que se uma imagem já foi quantizada, sua estrutura latente exibirá um padrão mensurável de alinhamento com os valores arredondados.

Esses padrões, embora invisíveis ao olho, produzem diferenças estatísticas que podem ajudar a separar imagens reais comprimidas de imagens totalmente sintéticas.

Um exemplo de espectros de Fourier médios revela que tanto imagens comprimidas em JPEG AI quanto aquelas geradas por modelos de difusão como Midjourney-V5 e Stable Diffusion XL exibem padrões regulares em grade no domínio da frequência – artefatos frequentemente associados ao upsampling. Em contraste, imagens reais não apresentam esses padrões. Essa sobreposição na estrutura espectral ajuda a explicar por que ferramentas forenses frequentemente confundem imagens reais comprimidas com sintéticas.

Um exemplo de espectros de Fourier médios revela que tanto imagens comprimidas em JPEG AI quanto aquelas geradas por modelos de difusão como Midjourney-V5 e Stable Diffusion XL exibem padrões regulares em grade no domínio da frequência – artefatos frequentemente associados ao upsampling. Em contraste, imagens reais não apresentam esses padrões. Essa sobreposição na estrutura espectral ajuda a explicar por que ferramentas forenses frequentemente confundem imagens reais comprimidas com sintéticas.

Importante, os autores mostram que esse cue funciona através de diferentes modelos generativos e permanece eficaz mesmo quando a compressão é forte o suficiente para zerar seções inteiras do espaço latente. Em contraste, imagens sintéticas mostram respostas muito mais fracas a este teste de arredondamento, oferecendo uma maneira prática de distinguir entre os dois.

O resultado pretendido é uma ferramenta leve e interpretável que visa a diferença fundamental entre compressão e geração, em vez de depender de artefatos superficiais frágeis.

Dados e Testes

Compressão

Para avaliar se seu cue de correlação de cores poderia detectar de forma confiável a compressão JPEG AI (ou seja, um primeiro passe a partir da fonte não comprimida), os autores o testaram em imagens não comprimidas de alta qualidade do conjunto de dados RAISE, comprimindo-as em uma variedade de taxas de bits, usando a implementação de referência do JPEG AI.

Treinaram um simples random forest nos padrões estatísticos de correlações de canais de cores (particularmente como o ruído residual em cada canal se alinha aos outros) e compararam isso com uma Rede Neural ResNet50 treinada diretamente nos pixels da imagem.

Precisão de detecção da compressão JPEG AI usando características de correlação de cores, comparadas através de várias taxas de bits. O método é mais eficaz em taxas de bits mais baixas, onde os artefatos de compressão são mais fortes, e mostra melhor generalização para níveis de compressão não vistos do que o modelo de baseline ResNet50.

Precisão de detecção da compressão JPEG AI usando características de correlação de cores, comparadas através de várias taxas de bits. O método é mais eficaz em taxas de bits mais baixas, onde os artefatos de compressão são mais fortes, e mostra melhor generalização para níveis de compressão não vistos do que o modelo de baseline ResNet50.

Embora a ResNet50 tenha alcançado maior precisão quando os dados de teste estavam próximos das condições de treinamento, teve dificuldade em generalizar em diferentes níveis de compressão. A abordagem baseada em correlação, embora muito mais simples, provou-se mais consistente em diferentes taxas de bits, especialmente em taxas de compressão mais baixas, onde o pré-processamento do JPEG AI tem um efeito mais forte.

Esses resultados sugerem que mesmo sem aprendizado profundo, é possível detectar a compressão JPEG AI usando pistas estatísticas que permanecem interpretáveis e resilientes.

Recompressão

Para avaliar se a compressão JPEG AI recomprimida pode ser detectada de forma confiável, os pesquisadores testaram o cue de taxa-distorção em um conjunto de imagens comprimidas em diversas taxas de bitrates – algumas uma única vez e outras uma segunda vez usando JPEG AI.

Esse método envolveu a extração de um vetor de recurso de 17 dimensões para rastrear como a taxa de bits e o PSNR da imagem evoluíram ao longo de três passes de compressão. Esse conjunto de recursos capturou quanto da qualidade foi perdida em cada etapa e como as taxas latentes e hyperprior se comportam—métricas que métodos tradicionais baseados em pixel não conseguem acessar facilmente.

Os pesquisadores treinaram um random forest com esses recursos e compararam seu desempenho com uma ResNet50 treinada em partes das imagens:

Resultados para a precisão de classificação de um random forest treinado em recursos de taxa-distorção para detectar se uma imagem JPEG AI foi recomprimida. O método tem melhor desempenho quando a compressão inicial é forte (ou seja, em taxas de bits mais baixas), e depois supera consistentemente uma ResNet50 baseada em pixels – especialmente em casos onde a segunda compressão é mais leve do que a primeira.

Resultados para a precisão de classificação de um random forest treinado em recursos de taxa-distorção para detectar se uma imagem JPEG AI foi recomprimida. O método tem melhor desempenho quando a compressão inicial é forte (ou seja, em taxas de bits mais baixas), e depois supera consistentemente uma ResNet50 baseada em pixels – especialmente em casos onde a segunda compressão é mais leve do que a primeira.

O random forest se mostrou notavelmente eficaz quando a compressão inicial foi forte (ou seja, em taxas de bits mais baixas), revelando diferenças claras entre imagens únicas e duplamente comprimidas. Assim como no cue anterior, a versão ResNet50 teve dificuldades em generalizar, particularmente quando testada em níveis de compressão que não havia visto durante o treinamento.

Os recursos de taxa-distorção, em contraste, permaneceram estáveis em uma ampla gama de cenários. Notavelmente, o cue funcionou mesmo quando aplicado a um codec baseado em IA diferente, sugerindo que a abordagem se generaliza além do JPEG AI.

JPEG AI e Imagens Sintéticas

Para a rodada final de testes, os autores testaram se seus recursos baseados em quantização podem distinguir entre imagens comprimidas JPEG AI e imagens completamente sintéticas geradas por modelos como Midjourney, Stable Diffusion, DALL-E 2, Glide, e Adobe Firefly.

Para isso, os pesquisadores utilizaram um subconjunto do conjunto de dados Synthbuster, misturando fotos reais do banco de dados RAISE com imagens geradas por uma variedade de modelos baseados em difusão e GAN.

Exemplos de imagens sintéticas do Synthbuster, geradas usando prompts de texto inspirados em fotografias naturais do conjunto de dados RAISE-1k. As imagens foram criadas com vários modelos de difusão, com prompts projetados para produzir conteúdo e texturas fotorrealistas, em vez de renderizações estilizadas ou artísticas, refletindo o foco do conjunto de dados em testar métodos para distinguir imagens reais de geradas.

Exemplos de imagens sintéticas do Synthbuster, geradas usando prompts de texto inspirados em fotografias naturais do conjunto de dados RAISE-1k. As imagens foram criadas com vários modelos de difusão, com prompts projetados para produzir conteúdo e texturas fotorrealistas, em vez de renderizações estilizadas ou artísticas. Fonte: https://ieeexplore.ieee.org/document/10334046

As imagens reais foram comprimidas usando JPEG AI em vários níveis de taxa de bits, e a classificação foi proposta como uma tarefa binária: ou JPEG AI versus um gerador específico, ou uma taxa de bits específica versus Stable Diffusion XL.

Os recursos de quantização extraídos das representações latentes foram calculados a partir de uma região fixa de 256×256 e alimentados em um classificador random forest. Como linha de base, uma ResNet50 foi treinada com patches de pixel a partir dos mesmos dados.

Precisão de classificação de um random forest usando características de quantização para separar imagens comprimidas JPEG AI de imagens sintéticas.

Precisão de classificação de um random forest usando características de quantização para separar imagens comprimidas JPEG AI de imagens sintéticas.

Em quase todas as condições, a abordagem baseada em quantização superou a linha de base ResNet50, especialmente em taxas de bits baixas onde os artefatos de compressão eram mais fortes.

Os autores afirmam:

‘A linha de base ResNet50 se sai melhor para imagens do Glide com uma precisão de 66,1%, mas de outra forma se generaliza pior do que as características de quantização. As características de quantização exibem boa generalização através de diferentes forças de compressão e tipos de gerador.

‘A importância dos coeficientes que são quantizados em zero é demonstrada no desempenho muito respeitável dos [recursos] truncados, que em muitos casos se saem comparáveis ao classificador ResNet50. No entanto, características de quantização que utilizam o vetor inteiro não truncado ainda apresentam um desempenho notavelmente melhor. Esses resultados confirmam que a quantidade de zeros após a quantização é uma pista importante para diferenciar imagens comprimidas de IA e geradas por IA.

‘No entanto, também mostra que outros fatores contribuem. A precisão do vetor completo para detectar JPEG AI é para todas as taxas de bits superior a 91,0%, e compressões mais fortes levam a precisões mais altas.’

Uma projeção do espaço de características usando UMAP mostrou clara separação entre imagens comprimidas em JPEG AI e imagens sintéticas, com bitrates mais baixos aumentando a distância entre as classes. Um outlier consistente foi Glide, cujas imagens se agruparam de forma diferente e tiveram a menor precisão de detecção de qualquer gerador testado.

Visualização UMAP bidimensional de imagens comprimidas em JPEG AI e imagens sintéticas com base em características de quantização. O gráfico à esquerda mostra que taxas de bits mais baixas em JPEG AI criam maior separação de imagens sintéticas; o gráfico à direita, como imagens de diferentes geradores se agrupam distintamente dentro do espaço de características.

Visualização UMAP bidimensional de imagens comprimidas JPEG AI e imagens sintéticas, com base em características de quantização. O gráfico à esquerda mostra que taxas de bits mais baixas em JPEG AI criam maior separação de imagens sintéticas; o gráfico à direita, como imagens de diferentes geradores se agrupam distintamente dentro do espaço de características.

Finalmente, os autores avaliaram quão bem os recursos se mantiveram sob pós-processamento típico, como recompressão JPEG ou redimensionamento. Enquanto o desempenho diminuiu com o processamento mais intenso, a queda foi gradual, sugerindo que a abordagem retém alguma robustez mesmo sob condições degradadas.

Avaliação da robustez da característica de quantização sob pós-processamento, incluindo recompressão JPEG (JPG) e redimensionamento de imagem (RS).

Avaliação da robustez da característica de quantização sob pós-processamento, incluindo recompressão JPEG (JPG) e redimensionamento de imagem (RS).

Conclusão

Não é garantido que o JPEG AI desfrute de ampla adoção. Por um lado, existe uma quantidade suficiente de dívida infraestrutura para impor atrito a qualquer novo codec; e mesmo um codec ‘convencional’ com uma boa pedigree e amplo consenso sobre seu valor, como o AV1, tem dificuldades para desalojar métodos incumbentes de longa data.

No que diz respeito ao potencial confronto do sistema com geradores de IA, os artefatos característicos de quantização que ajudam os atuais detectores de imagem de IA podem ser diminuídos ou eventualmente substituídos por vestígios de um tipo diferente, em sistemas posteriores (assumindo que os geradores de IA sempre deixarão resíduos forenses, o que não é certo).

Isso significaria que as próprias características de quantização do JPEG AI, talvez juntamente com outros indícios identificados pelo novo artigo, podem não acabar colidindo com a trilha forense dos sistemas geradores de IA mais eficazes.

Se, no entanto, o JPEG AI continuar a operar como um de fato ‘lavagem de IA’, borrando significativamente a distinção entre imagens reais e geradas, seria difícil defender um caso convincente para sua adoção.

Primeiramente publicado na terça-feira, 8 de abril de 2025


    dois × 5 =

    Bolt42