10 天前
基于LRS2数据集的音视频重叠语音识别
Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu

摘要
迄今为止,重叠语音的自动识别仍然是一个极具挑战性的任务。受人类语音感知双模态特性的启发,本文研究了基于音视频技术的重叠语音识别方法。针对音视频语音识别(AVSR)系统构建中的三个关键问题,本文提出了一系列解决方案:首先,探讨了AVSR系统的基础架构设计,包括端到端与混合式架构;其次,引入了专门设计的模态融合门机制,以鲁棒地融合音频与视觉特征;第三,与传统流水线式架构(包含显式的语音分离与识别模块)不同,本文提出了一种结构精简且高度集成的AVSR系统,该系统通过无网格最大似然增量(Lattice-free MMI, LF-MMI)判别准则进行统一优化。所提出的基于LF-MMI的时延神经网络(TDNN)系统在LRS2数据集上达到了当前最优性能。在基于LRS2数据集模拟的重叠语音实验中,该AVSR系统相较仅使用音频的基线LF-MMI深度神经网络(DNN)系统,词错误率(WER)最高降低了29.98个百分点,识别性能与更复杂的流水线系统相当。此外,在特征融合基础上,该系统相较基线AVSR系统实现了4.89个百分点的WER绝对降低,表现出持续且显著的性能提升。