PULSE:生成モデルの潜在空間探索を活用した自己教師付き画像アップサンプリング

単一画像の超解像(single-image super-resolution)の主な目的は、対応する低解像度(LR)入力から高解像度(HR)画像を復元することにある。従来のアプローチは一般的に教師あり学習に基づいており、訓練目的関数として、超解像(SR)画像とHR画像との間の画素単位の平均距離を測定するものが多かった。このような指標の最適化は、特に変動が大きい(詳細な)領域においてぼやけた結果を引き起こしやすい。本研究では、正しい低解像度化(downscaling)が可能な現実的なSR画像を生成することを目的とした、超解像問題の代替的な定式化を提案する。この問題に対応するアルゴリズムとして、PULSE(Photo Upsampling via Latent Space Exploration)を提示する。PULSEは、従来の文献で報告されたことのない高解像度の現実的な画像を、完全に自己教師あり(self-supervised)な形で生成可能である。従来の手法とは異なり、LR画像から徐々に詳細を追加するのではなく、PULSEは高解像度の自然画像多様体(manifold)を探索し、元のLR画像に正確に低解像度化されるような画像を検索する。この探索プロセスは「低解像度化損失(downscaling loss)」として形式化され、生成モデルの潜在空間(latent space)を効果的に探索するためのガイドラインとなる。高次元ガウス分布の性質を活用することで、探索空間を制限し、現実的な出力を保証する。その結果、PULSEは現実的かつ正確に低解像度化可能な超解像画像を生成する。本手法の有効性を顔画像の超解像(すなわち顔の「幻覚化」)の領域において、概念実証として示す。また、現在の実装における制限事項やバイアスについて議論し、関連する評価指標を含むモデルカード(model card)を併記する。本手法は、従来の技術では達成できなかった高解像度および大きな拡大率において、感覚的品質(perceptual quality)において最先端の手法を上回ることを示した。