17日前
フレーム間アテンションを用いた運動および外観の抽出による効率的な動画フレーム補間
Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang

要約
動画フレーム補間(VFI)において、フレーム間の運動情報と外観情報を効果的に抽出することは極めて重要である。従来の手法は、両種類の情報を混合的に抽出するか、それぞれの情報を別々のモジュールで処理する方式を採用していたが、これにより表現の曖昧性が生じ、処理効率も低下するという課題があった。本論文では、統一的な演算により運動情報と外観情報を明示的に抽出する新しいモジュールを提案する。具体的には、フレーム間アテンションにおける情報処理プロセスを再考し、アテンションマップを外観特徴の強化と運動情報の抽出の両方に再利用する。さらに、効率的なVFI実装を実現するため、本提案モジュールはハイブリッドなCNNとTransformerアーキテクチャにスムーズに統合可能である。このハイブリッドパイプラインにより、フレーム間アテンションの計算複雑性を軽減しつつ、詳細な低レベル構造情報を保持できる。実験結果から、固定時刻および任意時刻の補間において、様々なデータセットで最先端の性能を達成することが確認された。また、同等の性能を発揮する他のモデルと比較して、計算負荷がより軽いという利点も示された。ソースコードおよびモデルは、https://github.com/MCG-NJU/EMA-VFI にて公開されている。