AttentionがCNNの視覚能力を向上させる:Attentionを活用したハイブリッド画像品質評価ネットワーク

画像品質評価(Image Quality Assessment: IQA)アルゴリズムは、人間の画像品質に対する知覚を定量化することを目的としている。しかし、生成的敵対ネットワーク(GAN)によって生成された、見かけ上現実的なテクスチャを持つ歪み画像に対しては、従来のIQA手法において性能が著しく低下するという問題が存在する。本研究では、この性能低下の原因が、IQAモデルのバックボーン構造に起因すると仮定する。具体的には、ピクチャーレベルの予測手法が、独立した画像パッチを入力としてそれぞれ別々にスコアを計算するが、パッチ間の空間的関係性をモデル化できていない点にあると考えられる。これを解決するため、GANによる画像品質評価タスクにおいて優れた性能を発揮する新たなアプローチとして、Attentionに基づくハイブリッド画像品質評価ネットワーク(Attention-based Hybrid Image Quality Assessment Network: AHIQ)を提案する。まず、特徴抽出のための二本のブランチ構造を採用する。一つは視覚変換器(Vision Transformer: ViT)ブランチ、もう一つは畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)ブランチである。このハイブリッド構造により、ViTが捉えるパッチ間の相互作用情報と、CNNが抽出する局所的なテクスチャ詳細が統合される。さらに、浅層CNNの特徴が視覚的に顕著な領域に集中するよう、ViTブランチから得られる意味情報を利用した可変畳み込み(deformable convolution)を導入する。最後に、各パッチごとのスコアを予測するモジュールを用いて、最終的な画像品質スコアを算出する。実験の結果、本モデルは4つの標準的なIQAデータセットにおいて、最先端手法を上回る性能を示した。特に、NTIRE 2022 Perception Image Quality Assessment Challengeのフルリファレンス(Full Reference: FR)トラックにおいて、AHIQは第一位を獲得した。