2ヶ月前

VRT: 動画修復用トランスフォーマー

Jingyun Liang; Jiezhang Cao; Yuchen Fan; Kai Zhang; Rakesh Ranjan; Yawei Li; Radu Timofte; Luc Van Gool
VRT: 動画修復用トランスフォーマー
要約

ビデオ修復(例:ビデオ超解像)は、低品質のフレームから高品質のフレームを再生することを目指しています。単一画像修復とは異なり、ビデオ修復では通常、位置がずれている複数の隣接するビデオフレームから時間的な情報を活用することが必要です。既存の深層学習手法は、一般的にスライディングウィンドウ戦略や再帰的アーキテクチャを用いてこの問題に対処しますが、前者はフレームごとの修復に制限され、後者は長距離のモデル化能力に欠ける傾向があります。本論文では、並列フレーム予測と長距離時間依存性モデル化能力を持つビデオ修復トランスフォーマー(VRT)を提案します。より具体的には、VRTは複数のスケールで構成されており、それぞれのスケールには2種類のモジュール:時間相互自己注意(TMSA)と並列ワarpingが含まれています。TMSAはビデオを小さなクリップに分割し、相互注意を適用して共同運動推定、特徴量アラインメントおよび特徴量融合を行い、一方で自己注意は特徴量抽出に使用されます。クリップ間での相互作用を可能にするために、ビデオシーケンスは隔てた層ごとにシフトされます。さらに、並列ワarpingは近傍フレームからの情報融合を強化するために平行な特徴量ワarpingを使用します。5つのタスク(ビデオ超解像、ビデオ除曖昧化、ビデオノイズ除去、ビデオフレーム補間、時空間ビデオ超解像)における実験結果は、VRTが14つのベンチマークデータセットにおいて最新手法に対して大幅に優れた性能(最大2.16dB)を示していることを証明しています。

VRT: 動画修復用トランスフォーマー | 最新論文 | HyperAI超神経