
摘要
本文介绍了FaceXHuBERT,这是一种无需文本的语音驱动3D面部动画生成方法,能够捕捉语音中的个性化和细微线索(例如身份、情感和犹豫)。该方法对背景噪声具有很强的鲁棒性,可以处理在多种情况下录制的音频(例如多人讲话)。近期的方法采用了端到端深度学习技术,同时考虑音频和文本作为输入来生成整个面部的动画。然而,公开可用的表情丰富的音频-3D面部动画数据集稀缺,成为主要瓶颈。因此,生成的动画在准确口型同步、表情丰富度、个人特定信息和泛化能力方面仍存在问题。我们有效地利用了自监督预训练的HuBERT模型,在训练过程中无需使用大型词汇表即可结合音频中的词汇和非词汇信息。此外,通过二元情感条件和说话者身份引导训练,能够区分最细微的面部运动。我们进行了广泛的客观和主观评估,并与真实数据和现有最先进方法进行了比较。感知用户研究显示,在78%的情况下,我们的方法在动画的真实感方面优于现有最先进技术。此外,我们的方法速度提高了4倍,消除了使用复杂序列模型(如变压器)的需求。我们强烈建议在阅读论文之前观看补充视频。我们还提供了实现代码和评估代码,并附上了GitHub仓库链接。