Command Palette
Search for a command to run...
TOPIQ : Une approche ascendante de la sémantique aux distorsions pour l’évaluation de la qualité d’image
TOPIQ : Une approche ascendante de la sémantique aux distorsions pour l’évaluation de la qualité d’image
Chaofeng Chen Jiadi Mo Jingwen Hou Haoning Wu Liang Liao Wenxiu Sun Qiong Yan Weisi Lin
Résumé
L’évaluation de la qualité d’image (IQA, Image Quality Assessment) est une tâche fondamentale en vision par ordinateur qui a connu des progrès remarquables grâce aux réseaux neuronaux profonds. Inspirés des caractéristiques du système visuel humain, les méthodes existantes utilisent généralement une combinaison de représentations globales et locales (c’est-à-dire des caractéristiques multi-échelles) pour atteindre de meilleures performances. Toutefois, la plupart d’entre elles adoptent une fusion linéaire simple des caractéristiques multi-échelles, négligeant ainsi les relations potentiellement complexes et les interactions entre ces niveaux. À l’inverse, l’humain forme d’abord une impression globale afin d’identifier les régions importantes, puis se concentre sur les détails locaux dans ces zones. Nous proposons donc une approche haut-bas (top-down) qui utilise des sémantiques de haut niveau pour guider le réseau d’IQA afin de se focaliser sur les régions locales de distortion de grande importance sémantique, nommée \emph{TOPIQ}. Notre méthode repose sur la conception d’un réseau heuristique de grossier à fin (CFANet), qui exploite les caractéristiques multi-échelles et propage progressivement l’information sémantique de plusieurs niveaux vers les représentations de bas niveau de manière hiérarchique et top-down. Un élément clé de notre approche est le mécanisme d’attention cross-échelle proposé, qui calcule des cartes d’attention pour les caractéristiques de bas niveau à partir des caractéristiques de haut niveau. Ce mécanisme met l’accent sur les régions sémantiquement actives affectées par des distorsions de bas niveau, améliorant ainsi les performances. CFANet peut être appliqué à la fois à l’IQA à référence complète (FR) et à l’IQA sans référence (NR). Nous utilisons ResNet50 comme architecture principale (backbone) et démontrons que CFANet atteint des performances supérieures ou compétitives sur la plupart des benchmarks publics FR et NR par rapport aux méthodes d’état de l’art basées sur les transformateurs visuels, tout en étant bien plus efficace (avec seulement environ 13 % des FLOPS de la meilleure méthode FR actuelle). Le code source est disponible à l’adresse suivante : \url{https://github.com/chaofengc/IQA-PyTorch}.