2ヶ月前

学習軌道認識変換器を用いたビデオ超解像

Chengxu Liu; Huan Yang; Jianlong Fu; Xueming Qian
学習軌道認識変換器を用いたビデオ超解像
要約

ビデオ超解像(VSR)は、低解像度(LR)のフレームから高解像度(HR)のフレームシーケンスを復元することを目指しています。いくつかの進展が見られていますが、全体的なビデオシーケンスにおける時間依存関係を効果的に活用する大きな課題が残っています。既存の手法は通常、限られた近接フレーム(例:5または7フレーム)からビデオフレームを合わせて集約するため、これらの手法では満足できる結果を得るのが難しいです。本論文では、ビデオにおける効果的な空間・時間学習を可能にする一歩前進を行います。私たちは新しい軌跡認識型トランスフォーマー(Trajectory-aware Transformer for Video Super-Resolution: TTVSR)を提案します。特に、ビデオフレームを事前にアライメントされた複数の軌跡に構成し、これらは連続した視覚トークンで構成されます。クエリトークンに対しては、空間・時間軌跡に沿った関連する視覚トークンのみで自己注意を学習します。従来のビジョントランスフォーマーと比較して、このような設計は計算コストを大幅に削減し、トランスフォーマーが長距離特徴をモデル化することを可能にします。さらに、長距離ビデオでしばしば発生するスケール変化問題に対処するために、クロススケール特徴トークナイゼーションモジュールを提案します。実験結果は、4つの広く使用されているビデオ超解像ベンチマークでの広範な定量的および定性的評価により、提案されたTTVSRが最先端モデルよりも優れていることを示しています。コードと事前学習済みモデルは以下のURLからダウンロードできます:https://github.com/researchmm/TTVSR。

学習軌道認識変換器を用いたビデオ超解像 | 最新論文 | HyperAI超神経