
時空ビデオ超解像(Space-Time Video Super-Resolution: STVSR)は、低フレームレート(Low Frame Rate: LFR)と低解像度(Low Resolution: LR)のビデオを補間し、高フレームレート(High-Frame-Rate: HFR)および高解像度(High-Resolution: HR)の対応ビデオを生成するタスクである。既存の畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)に基づく手法は、視覚的に満足できる結果を得ることに成功しているが、重いアーキテクチャのために推論速度が遅いという問題がある。本研究では、この問題を解決するために、空間・時間変換器(spatial-temporal transformer)を使用することを提案する。この変換器は自然に空間超解像モジュールと時間超解像モジュールを単一のモデルに統合する。CNNベースの手法とは異なり、我々は時間補間と空間超解像のために明示的に分離された構成要素を使用せず、代わりに単一のエンドツーエンドの変換器アーキテクチャのみを使用する。具体的には、入力LFRおよびLRフレームに基づいてエンコーダによって再利用可能な辞書が構築され、その後デコーダ部分でこの辞書を利用してHFRおよびHRフレームを合成する。最新のTMNet \cite{xu2021temporal}と比較して、我々のネットワークはパラメータ数で60%小さい(4.5M 対 12.3M パラメータ)、かつ720×576ピクセルのフレームにおいて80%高速(26.2fps 対 14.3fps)でありながら性能を大幅に犠牲にしていない。ソースコードはhttps://github.com/llmpass/RSTTで入手可能である。