18日前

低品質動画スーパーレゾリューションのための時空間周波数変換器の学習

Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei Fu
低品質動画スーパーレゾリューションのための時空間周波数変換器の学習
要約

ビデオスーパーレゾリューション(VSR)は、低解像度(LR)ビデオから高解像度(HR)ビデオを復元することを目的としています。従来のVSR手法は、既知の劣化プロセスを持つ近接フレームから関連するテクスチャを抽出することでHRフレームを復元する方法を採用しています。しかし、著しい進展にもかかわらず、実際の劣化状態(例:ぼかし、加法性ノイズ、圧縮アーティファクトなど)が顕著な低品質な動画シーケンスから高品質なテクスチャを効果的に抽出・伝達するという大きな課題が残っています。本研究では、時空間周波数領域における自己注意(self-attention)を統合的に処理することで、低品質な動画に対して効果的な処理を実現する新しい手法、Frequency-Transformer(FTVSR)を提案します。まず、ビデオフレームをパッチに分割し、各パッチを周波数帯域を表すチャネルを持つスペクトルマップに変換します。これにより、各周波数帯域に対して細粒度な自己注意を適用可能となり、実際の視覚的テクスチャとアーティファクトを明確に区別することが可能になります。次に、グローバルな周波数関係とローカルな周波数関係を同時に捉えるための新規な二重周波数注意機構(Dual Frequency Attention: DFA)を提案します。この機構により、現実世界の複雑な多様な劣化プロセスに対応できるようになります。さらに、周波数領域におけるビデオ処理に適した異なる自己注意スキームを検討した結果、時間周波数領域への注意を適用する前に「分割注意(divided attention)」と呼ばれる、空間周波数領域での注意を統合的に処理するアプローチが、最も優れたビデオ強化性能を達成することが明らかになりました。3つの広く用いられているVSRデータセットにおける広範な実験結果から、FTVSRは従来の最先端手法に対して、明確な視覚的差をもって優れた性能を発揮することが確認されました。本研究のコードおよび事前学習済みモデルは、https://github.com/researchmm/FTVSR にて公開されています。

低品質動画スーパーレゾリューションのための時空間周波数変換器の学習 | 最新論文 | HyperAI超神経