
画像間の知覚的な誤差を推定する能力は、コンピュータビジョンにおいて重要な問題であり、多くの応用があります。この問題は広く研究されてきましたが、現在までに人間のように視覚的な違いを堅牢に予測できる方法は存在していません。以前の手法では手動でコーディングされたモデルが使用されましたが、それらは人間の視覚システムの複雑さを適切にモデル化できませんでした。また、他の手法では機械学習を使用して人間によってラベリングされたデータセットでモデルを訓練しましたが、大規模かつ高品質なデータセットを作成することは困難です。これは、人々が歪んだ画像に対して一貫した誤差ラベルを割り当てることができないためです。本論文では、人間の観察者と同じように知覚的な画像誤差を予測する初めての学習ベースの手法について述べます。人々には2つの画像を比較し、参照画像とより類似している方を選ぶことが、各画像に品質スコアを割り当てるよりも容易であるため、私たちは新たな大規模データセットを提案します。このデータセットには、人間が一方の画像を他方よりも選ぶ確率がラベリングされています。次に、新しいペアワイズ学習フレームワークを使用して深層学習モデルを訓練し、一方の歪んだ画像が他方よりも優れているかどうかの選好を予測します。私たちの主要な観察結果は、訓練されたネットワークが明示的な人間による知覚的誤差ラベルで訓練されることなく、単独で歪んだ画像1つと参照画像を使用してその知覚的誤差を予測できるということです。私たちの新しい指標PieAPP(Perceptual Image Error Assessment through Pairwise Preference)によって推定される知覚的誤差は、人間の意見と高い相関性を持っています。さらに、既存のアルゴリズムに対して大幅に優れており、二値エラー率に関してテストセット上で最高峰の性能(約3倍)を達成しています。また、以前の学習ベース的手法とは異なり、新しい種類の歪みにも汎化することが可能です。