要約
本研究では、スケルトンの系列として表現される長時間の動作を生成することを目的としている。生成された系列は、時間的に連続的かつ意味のある人間の動作を示すとともに、身体部位間の整合性を維持しなければならない。従来の自己回帰モデルに基づく逐次的なスケルトン生成とは異なり、本研究ではガウス過程(GP)からサンプリングされた潜在ベクトルの系列を出発点として、全体の動作系列を一度に変換生成するフレームワークを提案する。このフレームワークは「畳み込み系列生成ネットワーク(Convolutional Sequence Generation Network: CSGN)」と命名している。CSGNは、時間的・空間的次元における構造を統合的にモデル化する。時間的構造は、GP事前分布と時間的畳み込みにより、複数スケールで捉え、潜在ベクトルとスケルトングラフの間の空間的関係は、新規に提案するグラフ精緻化スキームによって確立する。特に注目すべきは、CSGNが潜在空間と観測空間の間で双方向変換を可能としており、動作系列に対して多様な形での意味的制御が可能である点である。複数のデータセットを用いた実証的研究を行った結果、特に本研究で収集した高品質なダンス動作データセットを含む実験において、本フレームワークは時間ステップ間および身体部位間で整合性を持つ長時間の動作系列を効果的に生成できることを示した。