11日前
T2M-GPT:離散表現を用いたテキスト記述からの人間の運動生成
Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu, Xi Shen

要約
本研究では、テキスト記述から人体運動を生成するためのシンプルかつ必須の条件付き生成フレームワークを、ベクトル量子化変分自己符号化器(VQ-VAE)と事前学習済み生成トランスフォーマー(GPT)を基盤として検討する。我々は、一般的に用いられる学習手法(EMAおよびコードリセット)を採用した単純なCNNベースのVQ-VAEにより、高品質な離散表現を取得できることを示す。また、GPTの学習においては、学習とテストの乖離を緩和するためのシンプルなノイズ付加戦略を導入する。このシンプルな構成にもかかわらず、T2M-GPTは、最近の拡散モデルベースのアプローチを含む競合手法を上回る性能を達成している。例えば、現在最大規模のデータセットであるHumanML3Dにおいて、テキストと生成された運動の整合性(R-Precision)において同等の性能を達成しつつ、FIDスコアは0.116と、MotionDiffuseの0.630を大幅に上回っている。さらに、HumanML3Dを用いた分析を通じて、データセットのサイズが本手法の限界要因であることが明らかになった。本研究の結果から、VQ-VAEは人体運動生成において依然として競争力のあるアプローチであることが示唆される。