
最近の画像品質評価(Image Quality Assessment: IQA)における取り組みは有望な性能を達成していますが、人間の視覚システム(Human Visual System: HVS)と比較するとまだ大きなギャップが存在します。特に、人間はフルリファレンス(Full Reference: FR)タスクとノーリファレンス(No Reference: NR)タスクの間でシームレスに移行できますが、既存のモデルはFRまたはNRのいずれかのタスクに制約されています。この違いは、2つの異なるシステムを設計する必要性を示唆しており、モデルの汎用性を大幅に損なっています。したがって、我々の焦点は単一のフレームワークでFRとNRのIQAを統合することにあります。具体的には、まずエンコーダーを使用して入力画像から多層的な特徴を抽出します。次に、階層的注意(Hierarchical Attention: HA)モジュールを提案し、これはFRおよびNR入力に対して共通のアダプターとして機能し、各エンコーダーステージでの空間的な歪みをモデル化します。さらに、異なる歪みがエンコーダーステージを汚染し、画像の意味論的な意味を異なる程度で損なうことを考慮して、意味論的歪み認識(Semantic Distortion Aware: SDA)モジュールを提案しました。このモジュールは浅い層と深い層との間での特徴相関を検討します。HAとSDAを採用することで、提案されたネットワークは効果的にFRとNRのIQA両方を行うことができます。我々が提案するモデルがNRまたはFR IQAタスクで独立して訓練される場合、既存のモデルよりも優れた性能を発揮し、最先端の結果を得ています。また、NRとFR IQAタスクで共同訓練される場合も、NR IQAの性能がさらに向上し、最先端レベルのFR IQA性能も維持されます。つまり、一度だけ訓練すれば両方のIQAタスクを行えるようになります。コードは以下のURLで公開されます:https://github.com/BarCodeReader/YOTO