11日前
教師なしフロー整合型シーケンスツーセクエンス学習による動画修復
Jing Lin, Xiaowan Hu, Yuanhao Cai, Haoqian Wang, Youliang Yan, Xueyi Zou, Yulun Zhang, Luc Van Gool

要約
動画シーケンス内のフレーム間関係を適切にモデル化することは、動画復元(Video Restoration, VR)において重要な課題であるが、依然として解決されていない。本研究では、この問題に対処するため、教師なしのフロー整合型シーケンス・トゥ・シーケンスモデル(S2SVR)を提案する。まず、自然言語処理分野においてシーケンスモデリングに有効であることが実証されているシーケンス・トゥ・シーケンスモデルを、VR分野において初めて適用した。最適化されたシーケンス化モデリングにより、フレーム間の長距離依存関係を捉える可能性が示された。一方で、本モデルに教師なしの光流推定器を組み込むことで、その潜在能力を最大限に引き出す。本研究で提案する教師なし蒸留損失(unsupervised distillation loss)により、光流推定器を学習させ、従来の光流ベース手法におけるデータ不整合や劣化した光流の精度不足といった問題を緩和した。信頼性の高い光流を用いることで、複数フレーム間の正確な対応関係を確立でき、1次元の言語データと2次元の非整合フレーム間のドメイン差を縮小し、シーケンス・トゥ・シーケンスモデルの性能向上を実現した。S2SVRは、動画のぼやけ補正、動画スーパーレゾリューション、圧縮動画の品質向上という複数のVRタスクにおいて優れた性能を示した。コードおよびモデルは、https://github.com/linjing7/VR-Baseline にて公開されている。