HyperAIHyperAI
il y a 3 mois

MANIQA : Réseau d'attention multi-dimensionnel pour l'évaluation de la qualité d'image sans référence

Sidi Yang, Tianhe Wu, Shuwei Shi, Shanshan Lao, Yuan Gong, Mingdeng Cao, Jiahao Wang, Yujiu Yang
MANIQA : Réseau d'attention multi-dimensionnel pour l'évaluation de la qualité d'image sans référence
Résumé

L’évaluation de la qualité d’image sans référence (NR-IQA) vise à évaluer la qualité perceptive des images selon la perception subjective humaine. Malheureusement, les méthodes actuelles de NR-IQA peinent à répondre aux exigences de prédiction de scores de qualité précis sur des images altérées par des GAN. À cette fin, nous proposons un réseau d’attention multidimensionnel pour l’évaluation de la qualité d’image sans référence, appelé MANIQA, afin d’améliorer les performances sur les images altérées par des GAN. Nous extrayons d’abord des caractéristiques à l’aide d’un Vision Transformer (ViT), puis renforçons les interactions globales et locales en introduisant deux nouveaux blocs : le Transposed Attention Block (TAB) et le Scale Swin Transformer Block (SSTB). Ces deux modules appliquent respectivement des mécanismes d’attention sur les dimensions canal et spatiale. Dans cette approche multidimensionnelle, les modules coopèrent efficacement pour renforcer les interactions entre différentes régions de l’image, tant au niveau global qu’au niveau local. Enfin, une architecture à deux branches est mise en œuvre pour la prédiction pondérée par patch de la qualité, permettant d’estimer le score final en fonction du poids attribué à chaque patch. Les résultats expérimentaux montrent que MANIQA surpasser largement les méthodes de pointe sur quatre jeux de données standards (LIVE, TID2013, CSIQ et KADID-10K). Par ailleurs, notre méthode a obtenu la première place lors de la phase de test finale du défi NTIRE 2022, dans la catégorie « Évaluation de la qualité perceptuelle d’image » (Track 2 : No-Reference). Les codes et modèles sont disponibles à l’adresse suivante : https://github.com/IIGROUP/MANIQA.