
本研究は、知覚的超解像度(SR)における忠実度(fidelity)という目的を扱う。具体的には、GANベースのSRフレームワークにおける画素レベルの $L_\text{p}$ 損失($\mathcal{L}\text{pix}$)の限界に着目する。$L\text{pix}$ は知覚品質とトレードオフの関係にあることが知られており、従来の手法では小さなスケーリング係数を乗じる、あるいは低域通過フィルタを用いるといった回避策が採られている。しかし、本研究では、こうした対策がぼかしを引き起こす根本的な要因を解決していないことを示す。したがって、本研究では以下の2点に注目する:1)ぼかしを引き起こす $\mathcal{L}\text{pix}$ のサブコンポーネントを正確に識別すること、および2)このトレードオフ関係に依存しない要因に基づくみちびきのみを行うこと。これらの目標が、予想外に単純な方法で達成可能であることを示す。具体的には、$\mathcal{L}\text{pix}$ で事前学習された自己符号化器(Auto-Encoder, AE)を用いることで実現できる。これに基づき、本研究では、原始画素空間ではなくAE空間における距離を測定する新しい損失関数である「最適ペナルティのための自己符号化監視損失(Auto-Encoded Supervision for Optimal Penalization loss, $L_\text{AESOP}$)」を提案する。ここでいうAE空間とは、エンコーダー後のブロッキング層ではなく、デコーダー後の空間を指す。単に $\mathcal{L}\text{pix}$ を $L\text{AESOP}$ に置き換えることで、知覚品質を損なうことなく、効果的な再構成ガイドを提供できる。本手法はシンプルな設計を特徴としており、既存のSRフレームワークへの容易な統合が可能である。実験結果により、AESOPが知覚的SRタスクにおいて優れた性能を発揮することが確認された。