17日前

高品質な動画フレーム補間のための運動の曖昧性と整合性の探求

Kun Zhou, Wenbo Li, Xiaoguang Han, Jiangbo Lu
高品質な動画フレーム補間のための運動の曖昧性と整合性の探求
要約

動画フレーム補間(VFI)において、従来の深層学習ベースの手法は、しばしば真値(GT)の補間フレームに近づく再構成を強く求めている。しかし、このアプローチは与えられた隣接フレームから見た運動の非一意性(非一意的な動きの可能性)を無視する傾向があり、その結果、明瞭さに欠ける平均化された解が生成されがちである。この問題を軽減するため、本研究では、補間フレームを真値にできるだけ近づけるという制約を緩和するアプローチを提案する。その根拠として、補間されたコンテンツは与えられたフレーム内の対応する領域と類似した構造を維持すべきであるという仮定を採用した。この制約を満たす予測値は、事前に定義された真値とは異なる場合があっても、積極的に促進される。このシンプルな「テクスチャ一貫性損失(TCL)」は、追加の複雑な構成要素を用いずに、既存のVFIフレームワークの性能を向上させることが可能である。一方で、従来の手法では、より正確な画像/特徴量のワーピングを実現するために、コストボリュームや相関マップを用いることが一般的である。しかしながら、これらはピクセル数をNとするとO(N²)の計算量を要するため、高解像度のケースでは実用的でない。本研究では、多スケール情報を効果的に活用するシンプルかつ効率的(O(N))な「クロススケールピラミッドアライメント(CSPA)」モジュールを設計した。広範な実験により、提案手法の効率性と有効性が実証された。

高品質な動画フレーム補間のための運動の曖昧性と整合性の探求 | 最新論文 | HyperAI超神経