6ヶ月前

概要

動画シーケンス内のフレーム間関係を適切にモデル化することは、動画復元（Video Restoration, VR）において重要な課題であるが、依然として解決されていない。本研究では、この問題に対処するため、教師なしのフロー整合型シーケンス・トゥ・シーケンスモデル（S2SVR）を提案する。まず、自然言語処理分野においてシーケンスモデリングに有効であることが実証されているシーケンス・トゥ・シーケンスモデルを、VR分野において初めて適用した。最適化されたシーケンス化モデリングにより、フレーム間の長距離依存関係を捉える可能性が示された。一方で、本モデルに教師なしの光流推定器を組み込むことで、その潜在能力を最大限に引き出す。本研究で提案する教師なし蒸留損失（unsupervised distillation loss）により、光流推定器を学習させ、従来の光流ベース手法におけるデータ不整合や劣化した光流の精度不足といった問題を緩和した。信頼性の高い光流を用いることで、複数フレーム間の正確な対応関係を確立でき、1次元の言語データと2次元の非整合フレーム間のドメイン差を縮小し、シーケンス・トゥ・シーケンスモデルの性能向上を実現した。S2SVRは、動画のぼやけ補正、動画スーパーレゾリューション、圧縮動画の品質向上という複数のVRタスクにおいて優れた性能を示した。コードおよびモデルは、https://github.com/linjing7/VR-Baseline にて公開されている。

ソースPDF