Vous n’entraînez qu’une seule fois : Un cadre unifié pour l’évaluation de la qualité des images avec et sans référence complète

Bien que les efforts récents en matière d'évaluation de la qualité des images (IQA) aient obtenu des performances prometteuses, il existe encore un écart considérable par rapport au système visuel humain (HVS). Une disparité importante réside dans la transition fluide des humains entre les tâches avec référence complète (FR) et sans référence (NR), tandis que les modèles existants sont limités à l'une ou l'autre de ces tâches. Cette disparité implique la nécessité de concevoir deux systèmes distincts, ce qui réduit considérablement la polyvalence du modèle. Par conséquent, notre objectif est de unifier les IQA FR et NR au sein d'un seul cadre. Plus précisément, nous utilisons d'abord un encodeur pour extraire des caractéristiques multivariées des images d'entrée. Ensuite, nous proposons un module d'Attention Hiérarchique (HA) comme adaptateur universel pour les entrées FR et NR, afin de modéliser la distorsion spatiale à chaque stade de l'encodeur. De plus, étant donné que différentes distorsions contaminent les étapes de l'encodeur et endommagent le sens sémantique des images différemment, nous proposons un module Conscient des Distorsions Sémantiques (SDA) pour examiner les corrélations entre les couches superficielles et profondes de l'encodeur. En adoptant HA et SDA, le réseau proposé peut effectuer efficacement à la fois les IQA FR et NR. Lorsque notre modèle proposé est formé indépendamment sur des tâches d'IQA NR ou FR, il surpasse les modèles existants et atteint des performances de pointe. De plus, lorsqu'il est formé conjointement sur des tâches d'IQA NR et FR, il améliore encore davantage les performances d'IQA NR tout en obtenant des performances comparables aux meilleurs modèles actuels en IQA FR. Vous n'avez qu'à former une seule fois pour effectuer à la fois les tâches d'IQA. Le code sera mis à disposition sur : https://github.com/BarCodeReader/YOTO.