6ヶ月前

概要

我々は、アクションクラスやテキスト記述子などのさまざまな条件入力に応じて現実的な人体運動シーケンスを生成するという困難なタスク、条件付き人体運動生成を研究する。人体運動は非常に多様であり、自然言語におけるテキスト記述子など、条件付きモダリティと比べて分布が著しく異なるため、望ましい条件付きモダリティから人体運動シーケンスへの確率的マッピングを学習することは極めて困難である。さらに、モーションキャプチャシステムから得られる原始的な運動データは、シーケンス内で冗長性を含み、ノイズを含む場合がある。この原始的な運動シーケンスと条件付きモダリティの同時分布を直接モデリングしようとすると、計算負荷が非常に高くなり、キャプチャノイズによって引き起こされるアーティファクトの発生リスクも高まる。より良い人体運動シーケンスの表現を学習するため、まず強力な変分自己符号化器（VAE）を設計し、人体運動シーケンスに対して代表的かつ低次元の潜在コードを獲得する。その後、原始的な運動シーケンスと条件付き入力の間の関係を拡散モデルで構築するのではなく、運動の潜在空間上で拡散プロセスを実行する。提案する「運動潜在拡散モデル（Motion Latent-based Diffusion model, MLD）」は、与えられた条件付き入力に適合した生々しい運動シーケンスを生成でき、訓練および推論の両フェーズにおいて大幅な計算負荷削減を実現する。さまざまな人体運動生成タスクにおける広範な実験結果から、MLDは最先端手法と比較して顕著な性能向上を達成しており、従来の原始運動シーケンスを対象とした拡散モデルと比べて、処理速度が2桁以上高速であることが確認された。

ソースPDF