
要約
画像品質の客観的評価手法は、通常、元画像と「劣化」した画像のピクセルを比較することで機能する。人間の観察者と比較すると、こうした手法はテクスチャ領域の再サンプリング(例えば、一片の草を別の草に置き換えるなど)に対して過剰に敏感である。本研究では、テクスチャの再サンプリングに対して明示的な耐性を持つ、初めてのフルリファレンス画像品質モデルを提案する。畳み込みニューラルネットワークを用いて、画像をマルチスケールかつ過剰な表現(overcomplete representation)に変換する単射的かつ微分可能な関数を構築する。実験的に、この表現における特徴マップの空間平均が、テクスチャの外観を捉えていることを示す。すなわち、多様なテクスチャパターンを再現するための十分な統計的制約を提供している。次に、これらの空間平均の相関(「テクスチャ類似度」)と特徴マップの相関(「構造類似度」)を組み合わせた画像品質評価手法を提示する。提案手法のパラメータは、人間の画像品質評価スコアに一致するように同時最適化されるとともに、同一テクスチャ画像から切り出された部分画像間の報告された距離を最小化するように調整される。実験結果から、最適化された本手法は、従来の画像品質データベースおよびテクスチャデータベースにおいて、人間の知覚スコアを良好に説明することが示された。また、テクスチャ分類や検索といった関連タスクにおいても、競争力ある性能を発揮する。さらに、特別な訓練やデータ拡張を用いずに、幾何変換(例:平行移動や拡大)に対して相対的に不敏感であることも示した。本手法の実装コードは、https://github.com/dingkeyan93/DISTS にて公開されている。