音声から全体的な3D人間運動を生成する

本研究解决了从人类语音生成三维整体身体动作的问题。给定一段语音录音,我们合成了现实且多样的三维身体姿态、手势和面部表情序列。为此,我们首先构建了一个高质量的同步语音三维整体身体网格数据集。接着,我们定义了一种新颖的语音到动作生成框架,其中脸部、身体和手部分别建模。这种分离建模源于脸部动作与人类语音密切相关,而身体姿态和手势的相关性较低这一事实。具体而言,我们使用了自动编码器来处理脸部动作,并采用了组合向量量化变分自动编码器(VQ-VAE)来处理身体和手部动作。组合式VQ-VAE是生成多样化结果的关键。此外,我们提出了一种交叉条件自回归模型,该模型生成连贯且现实的身体姿态和手势。广泛的实验和用户研究表明,我们的方法在定性和定量方面均达到了最先进的性能。我们的新数据集和代码将为研究目的发布在 https://talkshow.is.tue.mpg.de。この研究では、人間の音声から3次元全体の身体動作を生成する問題に取り組んでいます。音声録音が与えられた場合、現実的で多様な3次元の身体姿勢、手のジェスチャー、および顔の表情のシーケンスを合成します。そのためには、まず高品質な同期音声付き3次元全体の身体メッシュデータセットを構築しました。その後、顔と身体と手を別々にモデル化する新しい音声から動作への生成フレームワークを定義しました。この分離されたモデリングは、顔の動きが人間の音声と強く相関している一方で、身体姿勢と手のジェスチャーはそれほど相関していないという事実に基づいています。具体的には、顔の動きには自動エンコーダーを使用し、身体と手の動きには組み合わせベクトル量子化変分自動エンコーダー(VQ-VAE)を使用しています。組み合わせ式VQ-VAEは多様な結果を生成する上で鍵となります。さらに、連続かつ現実的な身体姿勢と手のジェスチャーを生成するためのクロスコンディショナル自己回帰モデルを提案しています。広範な実験とユーザースタディにより、私たちが提案したアプローチが定性的および定量的に最先端の性能を達成していることが示されています。当該新しいデータセットとコードは研究目的のために https://talkshow.is.tue.mpg.de で公開されます。