16日前

MoMask: 3次元人体運動の生成的マスクモデリング

Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
MoMask: 3次元人体運動の生成的マスクモデリング
要約

我々は、テキスト駆動型3次元人体運動生成を目的とした新たなマスクモデルフレームワーク「MoMask」を提案する。MoMaskでは、高精度な詳細情報を保持しつつ、人体運動を階層的な離散的な運動トークン(motion tokens)として表現するための階層的量子化スキームを採用している。ベース層では、ベクトル量子化によって得られた運動トークンの系列を出発点とし、その後の階層に、順次高次の残差トークン(residual tokens)を導出し、蓄積する。この後、2つの異なる双方向Transformerが用いられる。ベース層の運動トークンに対しては、学習段階でテキスト入力を条件としてランダムにマスクされた運動トークンを予測する「マスクTransformer」が配置される。生成段階(すなわち推論段階)では、空の系列から出発し、マスクTransformerが反復的に欠落しているトークンを埋めていく。その後、現在層の出力結果を基に、次の階層のトークンを段階的に予測する「残差Transformer」が動作する。広範な実験により、MoMaskがテキストから運動を生成するタスクにおいて、最先端手法を上回ることを実証した。HumanML3DデータセットではFIDスコアが0.045(例:T2M-GPTの0.141)であり、KIT-MLデータセットでは0.228(例:0.514)を達成した。また、MoMaskは微調整を加えずに、テキスト誘導型時系列補間(text-guided temporal inpainting)など、関連するタスクにもスムーズに適用可能であることが示された。

MoMask: 3次元人体運動の生成的マスクモデリング | 最新論文 | HyperAI超神経