
要約
本研究初めて単一画像から関節付きの人間の動きシーケンスを生成する試みを行いました。一方では、人間の骨格情報を運動埋め込みとして、単一人間画像を外観参照として利用し、条件付きGAN(Generative Adversarial Network)のインフラストラクチャに基づいて新しい運動フレームを生成します。他方では、連続するフレーム間の外観滑らかさを追求するために三重損失(triplet loss)が用いられます。提案されたフレームワークは画像の外観空間と関節付き/運動学的な動き空間を同時に関連付ける能力を持つため、これまでの多くのビデオ生成手法がぼやけた動き効果をもたらすのとは対照的に、現実的な関節付きの動きシーケンスを生成します。我々はKTHおよびHuman3.6Mという2つの人間行動データセットでモデルをテストしましたが、提案されたフレームワークは両データセットにおいて非常に有望な結果を示しました。