14日前

マスク付きインタフレーム・イントラフレームアテンションを備えた動画スーパーレゾリューションTransformer

Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu
マスク付きインタフレーム・イントラフレームアテンションを備えた動画スーパーレゾリューションTransformer
要約

最近、ビジョントランスフォーマー(Vision Transformer)は、低解像度動画シーケンスにおける欠落した詳細の復元、すなわち動画超解像(Video Super-Resolution: VSR)タスクにおいて大きな成功を収めている。VSRにおける高い精度を実現する一方で、トランスフォーマーに基づくVSRモデルは計算負荷が大きく、メモリ使用量も多いため、リソース制約のあるデバイスへの展開が困難であるという課題がある。本論文では、この問題に対処するために、新たな特徴レベルでのマスク処理フレームワーク「MIA-VSR(Masked Intra- and Inter-frame Attention for VSR)」を提案する。MIA-VSRの核となるアイデアは、隣接フレーム間の特徴レベルでの時間的連続性を活用し、冗長な計算を削減するとともに、事前に強化された超解像特徴をより効率的かつ合理的に再利用することにある。具体的には、過去の特徴と入力特徴の役割をそれぞれ考慮した、フレーム内およびフレーム間の注意機構ブロックを設計し、過去に強化された特徴のみを用いて補完情報を提供する。さらに、隣接フレーム間の特徴類似度に基づき、不要な計算をスキップするための適応的ブロック単位マスク予測モジュールを導入した。本研究では、提案手法の有効性を検証するための詳細なアブレーションスタディを実施し、最近の最先端VSR手法と比較した。実験結果から、MIA-VSRは、PSNR精度を損なうことなく、最先端手法と比較してメモリ使用量および計算効率を顕著に改善することが明らかになった。コードは以下のURLにて公開されている:https://github.com/LabShuHangGU/MIA-VSR。

マスク付きインタフレーム・イントラフレームアテンションを備えた動画スーパーレゾリューションTransformer | 最新論文 | HyperAI超神経