8日前

高精細かつ時間的一貫性を備えた動画予測のための空間時間的多周波数解析の探求

Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li
高精細かつ時間的一貫性を備えた動画予測のための空間時間的多周波数解析の探求
要約

動画予測は、過去のフレームをもとに将来のフレームを推定するピクセル単位の高密度予測タスクである。現在の予測モデルでは、外観の詳細情報の欠落と運動ブラーという二つの主要な課題が残っており、これらは画像の歪みや時間的な不整合を引き起こしている。本論文では、これらの問題に対処するため、多周波数解析の検討が不可欠であることを指摘する。人間視覚系(HVS)の周波数帯域分解特性に着想を得て、空間的および時間的情報を統一的に処理できる、多段階ウェーブレット解析に基づく動画予測ネットワークを提案する。具体的には、多段階空間的離散ウェーブレット変換により、各動画フレームを複数の周波数を持つ異方性サブバンドに分解することで、構造情報の豊かさを高め、微細な詳細を保持する。一方、時間軸上で実行される多段階時間的離散ウェーブレット変換は、フレーム列を異なる周波数のサブバンド群に分解し、固定フレームレート下でも多周波数の運動を正確に捉えることを可能にする。多様なデータセットにおける広範な実験結果から、本モデルが最先端手法と比較して、忠実度および時間的整合性において顕著な性能向上を示すことが明らかになった。

高精細かつ時間的一貫性を備えた動画予測のための空間時間的多周波数解析の探求 | 最新論文 | HyperAI超神経