
テキストからモーション生成を行う拡散モデルおよび自己回帰モデルの最近の進展は、有望な結果を示している。しかし、これらのモデルはリアルタイム性能、高忠実度、モーションの編集可能性の間でトレードオフが生じがちである。この課題に対処するため、我々は「Masked Motion Model(マスクドモーションモデル)」に基づく新規かつ簡潔なモーション生成パラダイム、MMM(Masked Motion Model)を提案する。MMMは以下の2つの主要な構成要素からなる:(1) 3次元人体モーションを潜在空間における離散トークンの系列に変換するモーショントークナイザー、および (2) 事前に計算されたテキストトークンを条件として、ランダムにマスクされたモーショントークンを予測する条件付きマスクドモーション変換器。MMMは、モーショントークン間の内在的な依存関係と、モーショントークンとテキストトークン間の意味的対応関係を、すべての方向から注意機構(attention)を用いて明示的に捉える。推論段階では、このアーキテクチャにより、細かいテキスト記述に高い整合性を持つ複数のモーショントークンを並列かつ反復的にデコードすることが可能となり、高忠実度かつ高速なモーション生成を同時に実現する。さらに、MMMは元々のモーション編集可能性を備えている。編集が必要な箇所にマスクトークンを配置するだけで、自動的にギャップを補完しつつ、編集部と非編集部の間で滑らかな遷移を保証する。HumanML3DおよびKIT-MLデータセットにおける広範な実験により、MMMは現在の最先端手法を上回る高品質なモーション生成性能を示した(FIDスコアが0.08および0.429と優れた結果)。また、身体部位の編集、モーションの中間補間、長時間モーションシーケンスの合成といった高度な編集機能も実現している。さらに、MMMは、編集可能なモーション拡散モデルと比較して、単一の中規模GPU上で2桁の高速化を達成している。本研究のプロジェクトページは以下のURLから閲覧可能である:\url{https://exitudio.github.io/MMM-page}。