TOPIQ:意味から歪みへ向かうトップダウンアプローチによる画像品質評価

画像品質評価(Image Quality Assessment: IQA)は、コンピュータビジョンにおける基本的なタスクであり、深層ニューラルネットワークの発展により著しい進展を遂げてきた。人間の視覚システムの特性に着想を得て、従来の手法は通常、グローバルな表現とローカルな表現(すなわちマルチスケール特徴)を組み合わせることで優れた性能を達成している。しかし、その多くはマルチスケール特徴を単純な線形融合によって統合しており、特徴間の複雑な関係性や相互作用を無視している。一方で、人間は通常、まず全体像を把握して重要な領域を特定し、その後その領域の詳細に注目する。この知覚プロセスに着目し、我々は上位の意味情報を用いてIQAネットワークが意味的に重要な局所的な歪み領域に注目できるように導く、トップダウン型のアプローチを提案する。これを「TOPIQ」と命名する。本手法では、マルチスケール特徴を活用し、上位から下位へと段階的に多層の意味情報を低レベル表現に伝搬するヒューリスティックな粗いから細かい(Coarse-to-Fine)ネットワーク(CFANet)を設計する。本アプローチの鍵となる要素として、高レベル特徴によってガイドされた低レベル特徴に対する注意マップを計算する、新規に提案するマルチスケール注意メカニズムを導入している。このメカニズムにより、低レベルの歪みに対して意味的に重要な領域が強調され、評価性能が向上する。CFANetはフルリファレンス(FR)およびノーリファレンス(NR)の両方のIQAタスクに適用可能である。バックボーンとしてResNet50を採用し、視覚変換器(Vision Transformer)に基づく最先端手法と比較して、多数の公的FRおよびNRベンチマークにおいて優れたまたは競争力のある性能を達成した。さらに、現時点で最も効率的なFR手法と比較して、計算量は約13%にまで削減され、極めて効率的である。コードはGitHubにて公開されている:\url{https://github.com/chaofengc/IQA-PyTorch}。