2 个月前

跨模态感知者:声音中能否提取面部几何信息?

Wu, Cho-Ying ; Hsu, Chin-Cheng ; Neumann, Ulrich
跨模态感知者:声音中能否提取面部几何信息?
摘要

这项研究深入探讨了人类感知中的一个基本问题:能否从声音中提取面部几何特征?以往研究这一问题的工作主要利用图像合成技术,将声音转换为面部图像以展示相关性,但在图像域进行工作不可避免地会预测一些声音无法提供的属性,如面部纹理、发型和背景。相反,我们专注于仅从几何角度重建三维人脸,这在生理学上更为有据可依。为此,我们提出了一个分析框架——跨模态感知器(Cross-Modal Perceptionist),并在监督学习和无监督学习两种模式下进行了研究。首先,我们构建了一个数据集 Voxceleb-3D,该数据集扩展了 Voxceleb 并包含配对的声音和面部网格模型,使得监督学习成为可能。其次,我们采用知识蒸馏机制来研究在有限的三维人脸扫描数据可用的情况下,是否仍能从没有配对的三维人脸数据的声音中提取面部几何特征。我们将核心问题分解为四个部分,并通过视觉和数值分析来回应这些问题。我们的发现与生理学和神经科学中关于声音与面部结构之间相关性的结论相呼应。这项工作为未来以人为中心的跨模态学习提供了可解释的基础。请参阅我们的项目页面:https://choyingw.github.io/works/Voice2Mesh/index.html