2ヶ月前

姿勢が知る:ポーズの未来を生成してビデオ予測を行う

Jacob Walker; Kenneth Marino; Abhinav Gupta; Martial Hebert
姿勢が知る:ポーズの未来を生成してビデオ予測を行う
要約

現在のビデオ予測手法は、生成対抗ネットワーク(Generative Adversarial Networks: GANs)や変分オートエンコーダー(Variational Autoencoders: VAEs)を使用して、ピクセル空間で直接ビデオを生成することを目指しています。しかし、これらの手法は一度にすべての構造とシーンダイナミクスをモデル化しようとするため、制約のない環境ではしばしば解釈不能な結果を生成します。私たちの洞察は、予測問題をより高い抽象レベルでモデル化することです。具体的には、ヒューマンポーズ検出器を無料の監督源として活用し、ビデオ予測問題を2つの離散的なステップに分割します。まず、シーン内の活動物体である人間の高レベル構造を明示的にモデル化し、VAEを使用してポーズ空間における人間の可能な未来の動きをモデル化します。次に、生成された未来のポーズ情報を条件としてGANに与えて、ピクセル空間でのビデオの未来フレームを予測します。ポーズ空間という構造化された中間表現を使用することで、GANが直接ビデオピクセルを生成する際に遭遇する問題を回避できます。定量評価と定性評価を通じて、当方法がビデオ予測における最先端手法よりも優れていることを示しています。

姿勢が知る:ポーズの未来を生成してビデオ予測を行う | 最新論文 | HyperAI超神経