圧縮動画スーパーリゾリューションのための時空間周波数Transformerの学習

圧縮動画のスーパーレゾリューション(VSR)は、圧縮された低解像度の映像フレームから高解像度のフレームを復元することを目的としています。近年の多くのVSRアプローチは、入力フレームに対して隣接する動画フレームから関連するテクスチャを借用することで品質を向上させています。しかし、圧縮動画では多くのフレームが重度に劣化しているため、高品質なテクスチャを効果的に抽出・転送するという大きな課題が残っています。本論文では、時空間周波数領域における結合的な自己注意機構を導入する新しいフレームワーク「Frequency-Transformer for compressed video super-resolution(FTVSR)」を提案します。まず、動画フレームをパッチに分割し、各パッチをDCTスペクトルマップに変換します。ここで各チャネルは異なる周波数帯を表しており、この設計により、各周波数帯に対して細粒度な自己注意を実現できます。これにより、実際の視覚的テクスチャとアーティファクトを明確に区別し、動画フレームの復元に活用することが可能になります。次に、さまざまな自己注意機構を検討した結果、周波数帯ごとに時空間周波数の結合的な注意を施した後、各周波数帯に対して時間方向の注意を適用する「分割型注意(divided attention)」が、最も優れた動画強化性能を発揮することが明らかになりました。2つの広く用いられている動画スーパーレゾリューションベンチマークにおける実験結果から、FTVSRは非圧縮動画および圧縮動画の両方において、最先端の手法を明確な視覚的差異で上回ることが確認されました。コードは以下のURLから公開されています:https://github.com/researchmm/FTVSR。