2ヶ月前

拡散モデルを用いたビデオ超解像における空間適応と時間一貫性の学習

Zhikai Chen; Fuchen Long; Zhaofan Qiu; Ting Yao; Wengang Zhou; Jiebo Luo; Tao Mei
拡散モデルを用いたビデオ超解像における空間適応と時間一貫性の学習
要約

拡散モデルは、画像の超解像タスクにおいてまさに転換点を迎えています。しかし、ビデオの超解像に拡散モデルを活用することは容易ではなく、低解像度から高解像度ビデオへの視覚的な外観の保存だけでなく、ビデオフレーム間の一貫性も必要とされます。本論文では、空間適応と時間的一貫性(Spatial Adaptation and Temporal Coherence: SATeCo)を追求する新しいアプローチを提案します。SATeCoは、低解像度ビデオから空間・時間的なガイダンスを学習し、潜在空間での高解像度ビデオのノイズ除去とピクセル空間でのビデオ再構成の両方を調整することに焦点を当てています。技術的には、SATeCoは事前学習されたUNetとVAEのすべてのパラメータを固定し、UNetとVAEのデコーダー内にある特意設計された空間特徴適応(Spatial Feature Adaptation: SFA)モジュールと時間的特徴アライメント(Temporal Feature Alignment: TFA)モジュールのみを最適化します。SFAは各ピクセルに対してアフィンパラメータを適応的に推定することでフレーム特徴を制御し、高解像度フレーム合成におけるピクセル単位でのガイダンスを保証します。TFAは3次元局所ウィンドウ(tubelet)内の特徴相互作用を探求し、tubeletとその低解像度対応との間にクロスアテンションを行い、時間的特徴アライメントをガイドします。REDS4およびVid4データセットで実施した広範な実験により、当社のアプローチの有効性が示されています。

拡散モデルを用いたビデオ超解像における空間適応と時間一貫性の学習 | 最新論文 | HyperAI超神経