13日前
HumanTOMATO:テキスト対応全身運動生成
Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum

要約
本研究は、与えられたテキスト記述を入力として、高品質で多様かつ一貫性のある表情、手の動き、体の運動を同時に生成することを目的とした、新たなテキスト駆動型全身運動生成タスクに焦点を当てている。これまでのテキスト駆動型運動生成に関する先行研究には、主に2つの課題が存在する。第一に、生々しい全身運動生成において、細粒度な手および顔の制御が果たす重要な役割を無視している点であり、第二に、テキストと運動の間の良好な整合性が欠けている点である。これらの課題を解決するために、本研究では、本分野において初めての実用的な包括的運動生成を実現する試みとして、テキスト整合型全身運動生成フレームワーク「HumanTOMATO」を提案する。この挑戦的なタスクに対応するため、我々のアプローチには以下の2つの鍵となる設計が含まれる。(1)2つの構造化コードブックを用いた細粒度な身体および手の運動再構成・生成を実現するための包括的階層型VQ-VAE(略称:H$^2$VQ)と階層型GPT;(2)事前学習済みのテキスト-運動整合モデルを導入し、生成された運動が入力テキストと明示的に整合するように支援する。広範な実験により、本モデルが生成運動の品質およびテキストとの整合性において、顕著な優位性を有することが確認された。