2 个月前
基于面部特征的多说话人环境下的视听语音增强
Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino

摘要
本文探讨了在鸡尾酒会场景中,当可获取目标说话人的视觉信息时,如何增强该说话人的语音问题。与大多数先前的研究不同,我们并未在通常规模较小的视听数据集上学习视觉特征,而是使用了一个已经在独立图像数据集上训练好的面部标志检测器。这些标志由基于LSTM的模型用于生成时间频率掩模,然后将其应用于混合语音的声谱图。研究结果表明:(i) 面部标志运动特征对于此任务非常有效;(ii) 与以往的工作类似,通过掩模介导的目标说话人声谱图重建显著比直接声谱图重建更准确;(iii) 最佳掩模依赖于运动标志特征和输入的混合语音声谱图。据我们所知,我们提出的模型是在有限规模的GRID和TCD-TIMIT数据集上训练和评估的第一个实现多说话人环境中说话人无关语音增强的模型。