
要約
ビデオインペイントは、ビデオ内の空間時間的な穴を合理的なコンテンツで埋めることを目指しています。画像インペイントの深層ニューラルネットワークにおける著しい進歩にもかかわらず、追加の時間次元があるため、これらの手法をビデオ領域に拡張することは困難です。本研究では、高速なビデオインペイントのために新しい深層ネットワークアーキテクチャを提案します。画像ベースのエンコーダー-デコーダーモデルを基盤としており、フレーム間から情報を収集し精製することで未知の領域を合成するように設計されています。同時に、再帰フィードバックと時間記憶モジュールにより出力が時間的に一貫性を持つよう制約されます。最先端の画像インペイントアルゴリズムと比較して、当手法はより意味論的に正確で時間的に滑らかなビデオを生成します。従来のビデオ補完手法が時間を要する最適化に依存しているのに対し、当手法は競合するビデオ結果を生成しながらほぼリアルタイムで動作します。最後に、当フレームワークをビデオリターゲティングタスクに適用し、視覚的に満足度の高い結果を得ました。