13日前
BAMM:双方向自己回帰運動モデル
Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen

要約
テキストから人間の運動を生成する技術は、従来、拡散プロセスまたは生成的マスキングプロセスを用いたノイズ除去型運動モデルによって主導されてきた。しかしながら、これらのモデルは運動の長さに関する事前知識を必要とするため、実用性に大きな制約を受ける。これに対し、自己回帰型運動モデルは運動の終端を動的に予測することでこの制約を克服するが、その代償として生成品質および編集可能性が低下するという課題がある。本研究では、こうした課題を解決するため、双方向自己回帰型運動モデル(Bidirectional Autoregressive Motion Model, BAMM)を提案する。BAMMは以下の2つの主要な構成要素からなる:(1)3次元人間運動を潜在空間における離散トークンに変換する運動トークナイザ、および(2)ハイブリッドなアテンションマスキング戦略を用いてランダムにマスクされたトークンを自己回帰的に予測するマスク付き自己注意型Transformer。生成的マスキングモデリングと自己回帰モデリングを統合することで、BAMMは運動トークン間の豊かな双方向依存関係を捉えつつ、動的に調整可能な運動シーケンス長を用いて、テキスト入力から運動出力への確率的マッピングを学習する。この特性により、BAMMは高品質な運動生成と向上した使いやすさ、および内蔵された運動編集機能を同時に実現する。HumanML3DおよびKIT-MLデータセットにおける広範な実験の結果、BAMMは定性的・定量的に、現在の最先端手法を上回ることが示された。本研究のプロジェクトページは以下のURLにて公開されている:https://exitudio.github.io/BAMM-page