2ヶ月前
少ショットビデオ・トゥ・ビデオ合成
Ting-Chun Wang; Ming-Yu Liu; Andrew Tao; Guilin Liu; Jan Kautz; Bryan Catanzaro

要約
ビデオ・トゥ・ビデオ合成(vid2vid)は、人間の姿勢やセグメンテーションマスクなどの入力意味論的ビデオを、出力の写実的なビデオに変換することを目指しています。vid2vidの最先端技術は大幅に進歩しましたが、既存のアプローチには2つの主要な制限があります。第一に、それらはデータ依存的です。目標の人間被験者やシーンの多数の画像が必要となります。第二に、学習したモデルの汎化能力は限定的です。姿勢から人間へのvid2vidモデルは、訓練セット内の単一の人間の姿勢のみを合成できます。訓練セットに含まれていない他の人間には汎化しません。これらの制限に対処するため、我々は少ショット・vid2vidフレームワークを提案します。このフレームワークは、テスト時に目標被験者またはシーンの少数の例示画像を利用することで、以前に見たことのない被験者やシーンのビデオを合成する能力を学習します。我々のモデルは、新しいネットワーク重み生成モジュール(attention mechanism)を利用して、この少ショット汎化能力を達成します。我々は大規模なビデオデータセット(人間ダンスビデオ、トーキングヘッドビデオ、街頭シーンビデオなど)を使用して、強力なベースラインとの比較を行う広範な実験検証を行いました。実験結果は、提案されたフレームワークが既存のvid2vidアプローチにおける2つの制限に対処する効果性を確認しています。