2 个月前

FaceDiffuser：基于语音驱动的3D面部动画合成使用扩散模型

Stan, Stefan ; Haque, Kazi Injamamul ; Yumak, Zerrin

摘要

语音驱动的3D面部动画合成在工业界和研究领域一直是一项具有挑战性的任务。近期的方法大多集中在确定性的深度学习方法上，这意味着给定一个语音输入，输出结果总是相同的。然而，在现实中，面部各处存在的非语言面部线索本质上是非确定性的。此外，大多数方法主要关注基于3D顶点的数据集，而与现有面部动画管线兼容的基于绑定角色的方法较为稀缺。为了解决这些问题，我们提出了FaceDiffuser，这是一种非确定性的深度学习模型，用于生成语音驱动的面部动画，并且该模型同时使用了基于3D顶点和混合形状（blendshape）的数据集进行训练。我们的方法基于扩散技术，并使用预训练的大规模语音表示模型HuBERT对音频输入进行编码。据我们所知，这是首次将扩散方法应用于语音驱动的3D面部动画合成任务。我们进行了广泛的客观和主观分析，结果显示我们的方法在与现有最先进方法相比时取得了更好的或相当的结果。我们还引入了一个新的内部数据集，该数据集基于混合形状的绑定角色。我们建议观看随附的补充视频。代码和数据集将公开提供。