HyperAIHyperAI

Command Palette

Search for a command to run...

GUESS:テキスト駆動型人体運動生成のための段階的合成拡張

Xuehao Gao Yang Yang Zhenyu Xie Shaoyi Du Zhongqian Sun Yang Wu

概要

本稿では、テキスト駆動型人間の動き生成を目的とした、新たな階層型拡散ベースの生成フレームワークを提案する。このフレームワークは「Gradually Enriching Synthesis(GUESS)」と呼ばれる戦略を採用している。GUESS戦略は、意味的に近接する詳細な骨格の関節をグループ化し、各関節グループを単一の身体部位ノードに置き換えることで、生成目標を設定する。この操作により、人間の姿勢は複数の粒度レベルで再帰的に粗い骨格へと抽象化されていく。抽象化レベルを段階的に高めていくことで、人間の動きはより簡潔かつ安定したものとなり、マルチモーダルな動き生成タスクにおいて顕著な利点をもたらす。その後、全体のテキスト駆動型人間動き生成問題は複数の抽象化レベルに分解され、階層型潜在拡散モデルを用いたマルチステージ生成フレームワークによって解決される。最初の生成器は、与えられたテキスト記述から最も粗い人間の動きの推測を生成し、その後の複数の生成器が、テキスト記述と前段階で生成された結果を基に、段階的に動きの詳細を豊かにしていく。特に本研究では、提案する動的多条件融合機構とGUESSを統合し、生成の各段階において、与えられたテキスト条件と生成された粗い動きプロンプトの協調効果を動的にバランス調整する。大規模データセットを用いた広範な実験により、GUESSが従来の最先端手法に比べて、精度、現実性、多様性の観点で大幅な性能向上を達成することが確認された。コードは以下のURLで公開されている:https://github.com/Xuehao-Gao/GUESS


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています