
要約
従来の顔ハルシネーション手法の多くは、入力画像が十分に大きく、アライメントされていることを前提としており、かつノイズのない画像を必要としている。これらの手法は、入力画像が極めて小さく、アライメントされておらず、ノイズを含んでいる場合、性能が著しく低下する。本論文では、アライメントされておらず、ノイズを含む極小(16×16)の低解像度顔画像を8倍超解像するための、新たな変換型判別型オートエンコーダーを提案する。従来のエンコーダ-デコーダ構造に基づくオートエンコーダーとは異なり、本手法はデコーダ-エンコーダ-デコーダネットワークを採用している。まず、変換型判別型デコーダネットワークを用いて、同時に画像の拡大とノイズ除去を実行する。次に、変換型エンコーダネットワークにより、中間的な高解像度(HR)顔画像をアライメントされ、ノイズのない低解像度(LR)顔画像に投影する。最後に、2番目のデコーダを用いて、ハルシネーションされた高解像度画像を生成する。大規模な顔画像データセットを用いた広範な評価により、本手法が優れたハルシネーション結果を達成し、最先端手法と比較してPSNRで1.82dBの大幅な性能向上を実現したことが示された。