MANIQA:参照なし画像品質評価のための多次元アテンションネットワーク

非参照画像品質評価(No-Reference Image Quality Assessment, NR-IQA)は、人間の主観的知覚に従って画像の知覚的品質を評価することを目的としている。しかし、従来のNR-IQA手法は、GANベースの歪みを含む画像に対して正確な品質スコアを予測するという要求に十分応えていない。この課題に対応するため、GANベースの歪み画像に対する性能向上を目的として、非参照画像品質評価のための多次元アテンションネットワーク(Multi-dimension Attention Network for no-reference Image Quality Assessment, MANIQA)を提案する。本手法では、まずViT(Vision Transformer)を用いて特徴量を抽出し、その後、グローバルおよびローカルな相互作用を強化するために、転置アテンションブロック(Transposed Attention Block, TAB)とスケールスウィン変換器ブロック(Scale Swin Transformer Block, SSTB)を提案する。これらの2つのモジュールは、それぞれチャネル次元および空間次元に沿ってアテンション機構を適用することで、画像の異なる領域間のグローバルかつローカルな相互作用を効果的に増強する。さらに、各ピクセルブロックのスコアに応じた重みを考慮したダブルブランチ構造を採用し、最終的な品質スコアを予測する。実験結果から、MANIQAはLIVE、TID2013、CSIQ、KADID-10Kの4つの標準データセットにおいて、最先端の手法を大きく上回る性能を達成した。また、NTIRE 2022「知覚的画像品質評価」チャレンジの第2トラック(非参照)の最終評価フェーズにおいても、1位を獲得した。コードおよびモデルは、https://github.com/IIGROUP/MANIQA にて公開されている。