2ヶ月前
深層特徴の不合理な効果:知覚計量としての応用
Richard Zhang; Phillip Isola; Alexei A. Efros; Eli Shechtman; Oliver Wang

要約
人間が2つの画像の知覚的類似性を迅速に評価することは、ほとんど努力を必要としませんが、その背後にあるプロセスは非常に複雑であると考えられています。しかし、今日最も広く使用されている知覚的指標(PSNRやSSIMなど)は単純で浅い関数であり、人間の知覚の多くのニュアンスを考慮に入れることができません。最近、深層学習コミュニティは、ImageNet分類で訓練されたVGGネットワークの特徴量が画像合成の損失関数として非常に有用であることを発見しました。しかし、これらの「知覚的損失」はどれほど知覚的なのでしょうか?それらの成功にはどのような要素が重要なのでしょうか?これらの問いに答えるため、私たちは新たな人間の知覚的類似性判断データセットを導入します。異なるアーキテクチャとタスクにおける深層特徴量を系統的に評価し、古典的な指標と比較します。結果として、深層特徴量は私たちのデータセットにおいてすべての以前の指標を大幅に上回ることがわかりました。さらに驚くべきことに、この結果はImageNetで訓練されたVGG特徴量に限定されるものではなく、異なる深層アーキテクチャや監督レベル(教師あり、自己教師あり、または非教師あり)においても成立します。私たちの研究結果は、知覚的類似性が深層視覚表現に共通する新興特性であることを示唆しています。