6ヶ月前

概要

本稿では、テキスト駆動型人間の動き生成を目的とした、新たな階層型拡散ベースの生成フレームワークを提案する。このフレームワークは「Gradually Enriching Synthesis（GUESS）」と呼ばれる戦略を採用している。GUESS戦略は、意味的に近接する詳細な骨格の関節をグループ化し、各関節グループを単一の身体部位ノードに置き換えることで、生成目標を設定する。この操作により、人間の姿勢は複数の粒度レベルで再帰的に粗い骨格へと抽象化されていく。抽象化レベルを段階的に高めていくことで、人間の動きはより簡潔かつ安定したものとなり、マルチモーダルな動き生成タスクにおいて顕著な利点をもたらす。その後、全体のテキスト駆動型人間動き生成問題は複数の抽象化レベルに分解され、階層型潜在拡散モデルを用いたマルチステージ生成フレームワークによって解決される。最初の生成器は、与えられたテキスト記述から最も粗い人間の動きの推測を生成し、その後の複数の生成器が、テキスト記述と前段階で生成された結果を基に、段階的に動きの詳細を豊かにしていく。特に本研究では、提案する動的多条件融合機構とGUESSを統合し、生成の各段階において、与えられたテキスト条件と生成された粗い動きプロンプトの協調効果を動的にバランス調整する。大規模データセットを用いた広範な実験により、GUESSが従来の最先端手法に比べて、精度、現実性、多様性の観点で大幅な性能向上を達成することが確認された。コードは以下のURLで公開されている：https://github.com/Xuehao-Gao/GUESS。

ソースPDF