
要約
ビデオ超解像(VSR)は、対応する低解像度(LR)フレーム(参照フレーム)と複数の近傍フレーム(補助フレーム)から、写真のようにリアルな高解像度(HR)ビデオフレームを復元することを目指しています。カメラや物体の動きが異なるため、参照フレームと各補助フレームは位置合わせされていません。したがって、時間的な位置合わせはVSRにおいて難しく重要な問題となっています。従来のVSR手法では、通常、参照フレームと各補助フレーム間の光学フローを利用し、補助フレームを時間的に位置合わせするためにラッピングを行います。そのため、これらの画像レベルでのラッピングベースモデルの性能は光学フローの予測精度に大きく依存し、不正確な光学フローはラップされた補助フレームにアーティファクトを引き起こし、さらに再構築されたHRビデオフレームにも伝播します。この制限を克服するために、本論文では特徴量レベルで光学フローを計算せずに参照フレームと各補助フレームを適応的に位置合わせるための一時的変形アライメントネットワーク(TDAN: Temporal Deformable Alignment Network)を提案します。TDANは、参照フレームと各補助フレームからの特徴量を使用してサンプリング畳み込みカーネルのオフセットを動的に予測します。対応するカーネルを使用することで、TDANは補助フレームを参照フレームに位置合わせます。HRビデオフレームを予測するために、位置合わせされたフレームと参照フレームを取り扱う再構築ネットワークが利用されます。実験結果は提案されたTDANベースのVSRモデルの有効性を示しています。