2ヶ月前
MotionGPT: 人間の動作を外国語として扱う
Jiang, Biao ; Chen, Xin ; Liu, Wen ; Yu, Jingyi ; Yu, Gang ; Chen, Tao

要約
プリトレーニングされた大規模言語モデルの進歩が進む一方で、言語と他の多様なモーダルデータ(例えば動作)を統一的に扱うモデルの構築は、依然として挑戦的であり未開拓の領域となっています。幸いにも、人間の動作は人間の言語と同様に意味的な結合を示し、しばしば身体言語の一形態として認識されています。言語データと大規模な動作モデルを融合することで、動作関連タスクの性能向上につながるモーション-ランゲージプリトレーニングが可能となります。この洞察に基づき、私たちは複数の動作関連タスクに対応する統一的で汎用性が高く、ユーザーにとって使いやすいモーション-ランゲージモデルであるMotionGPTを提案します。具体的には、人間の動作に対して離散ベクトル量子化を用い、3次元動作をモーショントークンに変換します。これは単語トークンの生成プロセスに類似しています。この「動作ボキャブラリー」を基盤として、私たちは動作とテキストに対して統一的な方法で言語モデリングを行い、人間の動作を特定の言語として扱います。さらに、プロンプト学習から着想を得て、MotionGPTはモーション-ランゲージデータの混合体でプリトレーニングされ、プロンプトベースの質問応答タスクでファインチューニングされます。広範な実験結果により、MotionGPTはテキスト駆動型動作生成、動作キャプショニング、動作予測、および中間フレーム生成などの複数の动作タスクにおいて最先端の性能を達成することが示されています。