16日前

UDE:人間の動き生成のための統合型ドライビングエンジン

Zixiang Zhou, Baoyuan Wang
UDE:人間の動き生成のための統合型ドライビングエンジン
要約

3Dアバター生成における制御可能で編集可能な人間の運動シーケンスの生成は、長年にわたり重要な課題であった。従来、人間の運動を生成・アニメーション化するには多大な手作業が必要であったが、近年、学習ベースのアプローチが開発・適用され、状況は大きく変化した。しかし、これらのアプローチは依然としてタスク固有またはモダリティ固有であるという限界がある\cite{ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}。本論文では、自然言語または音声シーケンスから人間の運動シーケンスを生成可能な、初めての統合型駆動エンジン「UDE(Unified Driving Engine)」を提案する(図~\ref{fig:teaser}を参照)。具体的には、以下の主要な構成要素からなる:1)VQVAEに基づく運動量子化モジュール(連続的な運動シーケンスを離散的な潜在コードとして表現)\cite{van2017neural}、2)モダリティに依存しないTransformerエンコーダ\cite{vaswani2017attention}(モダリティに特化した駆動信号を統一された空間にマッピングする学習を実現)、3)統合トークンTransformer(GPTに類似する構造\cite{radford2019language})ネットワーク(自己回帰的に量子化された潜在コードのインデックスを予測)、4)拡散型運動デコーダ(運動トークンを入力として受け取り、多様性の高い運動シーケンスに復元)。本手法は、HumanML3D\cite{Guo_2022_CVPR}およびAIST++\cite{li2021learn}のベンチマーク上で評価された結果、最先端の性能を達成したことが実証された。プロジェクトウェブサイト:\url{https://github.com/zixiangzhou916/UDE/}

UDE:人間の動き生成のための統合型ドライビングエンジン | 最新論文 | HyperAI超神経