11日前

人間の運動の拡散を生成的事前分布として

Yonatan Shafir, Guy Tevet, Roy Kapon, Amit H. Bermano
人間の運動の拡散を生成的事前分布として
要約

最近の研究では、テキストからモーションを生成する能力を含む、ノイズ除去拡散モデルが人間の動き生成において大きな可能性を示している。しかし、これらの手法はアノテーション付きのモーションデータの不足、単一人物の動きに限定されていること、詳細な制御が困難であるという制約に直面している。本論文では、拡散事前分布(diffusion priors)に基づく3つの構成手法、すなわち逐次構成(sequential composition)、並列構成(parallel composition)、モデル構成(model composition)を提案する。逐次構成を用いて、長時間のシーケンス生成という課題に取り組む。我々は、短時間のクリップのみで訓練された事前モデルを用いて、プロンプトで指定された時間区間とその遷移を含む長時間のアニメーションを生成する推論時手法「DoubleTake」を導入する。並列構成では、二人の人物のモーション生成に向けた有望な進展を示す。固定された2つの事前モデルと、少数の二人用トレーニング例をもとに、2つのモーション間の相互作用を調整するための軽量な通信ブロック「ComMDM」を学習する。最後に、モデル構成を用いて、特定の関節に対して所定のモーションを実現するように個々の事前モデルを訓練する。その後、「DiffusionBlending」と呼ばれる補間機構を導入し、複数のこのようなモデルを効果的に統合することで、細粒度の関節レベルおよび軌道レベルの制御および編集を柔軟かつ効率的に行うことを可能にする。本研究では、既存のモーション拡散モデルを用いて構成手法の有効性を評価し、これらの特定タスクに特化して訓練された専用モデルと比較することで、その性能を検証している。

人間の運動の拡散を生成的事前分布として | 最新論文 | HyperAI超神経