2ヶ月前
学習可能なゲート付き時刻シフトモジュールを用いた深層ビデオインペイント
Ya-Liang Chang; Zhe Yu Liu; Kuan-Ying Lee; Winston Hsu

要約
動画のインペイント問題において、時間情報を効率的に利用して一貫性のある動画を復元する方法が主要な課題となっています。従来の2D CNNは画像のインペイントで優れた性能を達成していますが、動画に適用するとしばしば時間的な一貫性が失われ、フレームがちらつく結果となります(参照: https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1)。3D CNNは時間情報を捉えることができますが、計算量が多く、学習が困難です。本論文では、動画のインペイントモデル向けに新しいコンポーネントである学習可能なゲーテッド・テンポラル・シフト・モジュール(Learnable Gated Temporal Shift Module: LGTSM)を提案します。このモジュールは3D畳み込みから追加のパラメータなしで任意の動画画像マスクに対処できるように設計されています。LGTSMは2D畳み込みが近傍フレームをより効率的に利用できるようにすることで、動画のインペイントにとって重要な役割を果たします。具体的には、各層においてLGTSMはいくつかのチャネルをその時間的近傍へシフトする方法を学習し、2D畳み込みが時間情報を扱う能力を強化します。同時に、ゲーテッド畳み込みが層に適用され、従来の畳み込みに対して有害となるマスクされた領域を特定します。FaceForensicsおよびFree-form Video Inpainting (FVI) データセットにおいて、我々のモデルは単純に33%のパラメータと推論時間を用いて最先端の結果を達成しました。