
要約
本研究深入探讨了人类感知中的一个根本问题:声音能否揭示面部几何特征?以往研究这一问题的工作仅采用了图像合成技术的进步,将声音转换为面部图像以展示相关性,但在图像域进行工作不可避免地涉及到预测声音无法暗示的属性,包括面部纹理、发型和背景。相反,我们专注于仅从几何特征出发,通过重建3D面部来探究这一能力,这在生理学上更为坚实。为此,我们提出了分析框架「Cross-Modal Perceptionist」(クロスモーダル・パーセプショニスト),并在监督学习和无监督学习两种模式下进行了研究。首先,我们构建了一个数据集「Voxceleb-3D」(ボクセレブ-3D),该数据集扩展了Voxceleb并包含配对的声音和面部网格数据,使得监督学习成为可能。其次,我们利用知识蒸馏机制,在3D面部扫描数据有限的情况下,研究是否仍能从没有配对的声音和3D面部数据中提取面部几何特征。我们将核心问题分解为四个部分,并通过视觉和数值分析来回应这些问题。我们的发现与生理学和神经科学中关于声音与面部结构之间相关性的结论相呼应。本研究为未来以人为中心的跨模态学习提供了可解释的基础。详情请参阅我们的项目页面:https://choyingw.github.io/works/Voice2Mesh/index.html