2ヶ月前

ズーミング スローモー:高速かつ正確な一段階空間時間ビデオスーパーレゾリューション

Xiaoyu Xiang; Yapeng Tian; Yulun Zhang; Yun Fu; Jan P. Allebach; Chenliang Xu
ズーミング スローモー:高速かつ正確な一段階空間時間ビデオスーパーレゾリューション
要約

本論文では、時空ビデオスーパーレゾリューション(STVSR)タスクについて探ります。このタスクの目的は、低フレームレート(LFR)、低解像度(LR)のビデオから高解像度(HR)のスローモーションビデオを生成することです。単純な解決策として、このタスクを2つのサブタスクに分割することができます:ビデオフレーム補間(VFI)とビデオスーパーレゾリューション(VSR)。しかし、時間的な補間と空間的なスーパーレゾリューションはこのタスクにおいて相互に関連しています。2段階の方法では、自然な特性を十分に活用することができません。さらに、最先端のVFIやVSRネットワークは、高品質なビデオフレームを予測するために大規模なフレーム合成または再構成モジュールが必要であり、これにより2段階の方法が大きなモデルサイズとなり、処理時間がかかるという問題があります。これらの問題を克服するために、我々は1段階の時空ビデオスーパーレゾリューションフレームワークを提案します。このフレームワークは、LFRおよびLRのビデオから直接HRスローモーションビデオを合成します。VFIネットワークが欠落したLRビデオフレームを合成するのではなく、まず我々は特徴量時間補間ネットワークによって欠落したLRビデオフレーム内の局所的な時間的文脈を捉えるためにLRフレーム特徴量を時間的に補間します。次に、変形可能なConvLSTMを提案し、時間情報を同時に整列および集約することで全体的な時間的文脈をより効果的に活用します。最後に、深層再構成ネットワークを使用してHRスローモーションビデオフレームを予測します。ベンチマークデータセットでの広範な実験により、提案手法が最近の2段階最尖端手法(例えばDAIN+EDVRやDAIN+RBPN)よりも3倍以上高速であるだけでなく、定量的および定性的パフォーマンスも優れていることが示されました。