2ヶ月前

深層ビデオ生成、予測および人間の行動シーケンスの補完

Cai, Haoye ; Bai, Chunyan ; Tai, Yu-Wing ; Tang, Chi-Keung
深層ビデオ生成、予測および人間の行動シーケンスの補完
要約

現在の深層学習におけるビデオ生成の結果は限られており、ビデオ予測に関する初期の成果が僅かしかなく、ビデオ補完に関する有意な成果はほとんど存在しません。これは、これらの3つの問題に内在する深刻な非適切性(ill-posedness)によるものです。本論文では、人間の行動を捉えたビデオに焦点を当て、入力フレームがゼロまたは任意の数である場合の人間行動ビデオを生成するための一般的な2段階の深層フレームワークを提案します。このフレームワークは、以下の3つの問題を一貫して扱います:入力フレームがない場合のビデオ生成、最初の数フレームが与えられた場合のビデオ予測、最初と最後のフレームが与えられた場合のビデオ補完。問題を扱いやすくするために、第1段階ではランダムノイズから人間の姿勢シーケンスを生成する深層生成モデルを訓練します。第2段階では、完全な人間の姿勢シーケンスが与えられた場合の人間行動ビデオを生成するために、骨格画像変換ネットワーク(skeleton-to-image network)を訓練します。2段階戦略により、元々の非適切な問題を迂回しながら、初めて長時間にわたる高品質なビデオ生成・予測・補完結果を得ることができました。私たちは定量的および定性的評価を行い、提案した2段階アプローチがビデオ生成、予測および補完において最先端手法を超えることを示しました。本研究で得られたビデオ結果は以下のURLで確認できます:https://iamacewhite.github.io/supp/index.html