2 个月前

从语音生成整体3D人体运动

Yi, Hongwei ; Liang, Hualin ; Liu, Yifei ; Cao, Qiong ; Wen, Yandong ; Bolkart, Timo ; Tao, Dacheng ; Black, Michael J.
从语音生成整体3D人体运动
摘要

这项研究解决了从人类语音生成三维全身动作的问题。给定一段语音录音,我们合成了真实且多样的三维身体姿态、手势和面部表情序列。为了实现这一目标,我们首先构建了一个高质量的同步语音三维全身网格数据集。接着,我们定义了一种新颖的语音到动作生成框架,其中面部、身体和手部被分别建模。这种分离建模源于面部动作与人类语音之间存在强相关性,而身体姿态和手势的相关性较弱。具体而言,我们使用了自动编码器来处理面部动作,并采用了一种组合式的向量量化变分自动编码器(VQ-VAE)来生成身体和手部的动作。组合式 VQ-VAE 是生成多样化结果的关键。此外,我们提出了一种交叉条件自回归模型,该模型能够生成连贯且真实的全身动作和手势。大量的实验和用户研究表明,我们的方法在定性和定量方面均达到了当前最佳性能。我们的新型数据集和代码将发布在 https://talkshow.is.tue.mpg.de 以供研究使用。

从语音生成整体3D人体运动 | 最新论文 | HyperAI超神经