11日前

希望の通りに動作する:階層的意味グラフを用いたモーションディフュージョンモデルの細粒度制御

希望の通りに動作する:階層的意味グラフを用いたモーションディフュージョンモデルの細粒度制御
要約

大多数テキスト駆動型の人体運動生成手法は、トランスフォーマーなどの逐次モデルを用いて、自動的かつ暗黙的に文レベルのテキスト表現を抽出し、人体運動の合成に活用している。しかし、こうしたコンパクトなテキスト表現は、行動名に過度に注目し、他の重要な特徴を軽視する傾向があり、微妙な運動の差異を正確に再現するための細粒度の情報を欠いている。本論文では、運動生成に対する細粒度制御を実現するため、階層的意味グラフ(hierarchical semantic graphs)を提案する。具体的には、運動記述を三段階の階層構造(運動全体、行動、詳細事項)に分離し、意味グラフとして表現する。このようなグローバルからローカルへと構造化されたアプローチにより、運動記述の包括的な理解と、運動生成における細部までを制御可能な柔軟性が実現される。これに対応して、階層的意味グラフの粗い構造から細かい構造へと至るトポロジーを活用するため、テキストから運動への拡散プロセスを三段階に分解し、それぞれが運動全体の捉え方、局所的な行動、行動の詳細事項を対応させる。HumanML3DおよびKITという2つのベンチマーク人体運動データセットにおける広範な実験により、本手法の優れた性能が実証された。さらに、階層的意味グラフのエッジ重みを調整することで、生成された運動を連続的に精緻化できる点は、本研究の大きな前向きな成果であり、コミュニティに大きな影響を与える可能性を秘めている。コードおよび事前学習済み重みは、https://github.com/jpthu17/GraphMotion にて公開されている。

希望の通りに動作する:階層的意味グラフを用いたモーションディフュージョンモデルの細粒度制御 | 最新論文 | HyperAI超神経