EMAGE: 統合的な全体的な共発話ジェスチャ生成へのアプローチ - 表現力豊かなマスク付き音声ジェスチャモデルを用いて

私たちは、音声とマスクされたジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークであるEMAGEを提案します。このフレームワークは、顔、局所的な体、手、および全体的な動きを含むジェスチャーの生成をカバーしています。まず、BEAT2(BEAT-SMPLX-FLAME)という新しいメッシュレベルの包括的な共話ジェスチャーデータセットを紹介します。BEAT2はMoShed SMPL-XボディとFLAMEヘッドパラメーターを組み合わせ、頭部、首、および指の動きのモデリングをさらに洗練させることで、コミュニティ標準化され高品質な3Dモーションキャプチャデータセットを提供します。EMAGEはトレーニング中にマスクされた身体ジェスチャーの事前知識を利用することで推論性能を向上させます。これにはマスク付きオーディオ・ジェスチャートランスフォーマーが含まれており、音声からジェスチャーへの生成とマスクされたジェスチャーの再構築に関する共同トレーニングを可能にし、効果的に音声と身体ジェスチャーのヒントをエンコードします。次に、マスクされたジェスチャーからエンコードされた身体ヒントを使用して顔と身体の動きを別々に生成します。さらに、EMAGEは音声のリズムと内容からスピーチ特徴量を適応的に統合し、4つの構成的なVQ-VAE(Vector Quantized Variational Autoencoder)を使用して結果の忠実度と多様性を向上させます。実験では、EMAGEが最先端の性能を持つ包括的なジェスチャーを生成できること、そして事前に定義された空間時間的なジェスチャーアクションを受け入れて完全なオーディオ同期結果を作り出す柔軟性があることが示されています。私たちのコードとデータセットは以下のURLで公開されています: https://pantomatrix.github.io/EMAGE/