9 天前

基于移动设备传感器的视听语音与手势识别

{Elena Ryumina, Denis Ivanko, Dmitry Ryumin}
摘要

视听语音识别(Audio-Visual Speech Recognition, AVSR)是实现可靠语音识别最具前景的解决方案之一,尤其在音频信号受噪声干扰的情况下表现尤为突出。额外的视觉信息可同时用于自动唇读与手势识别。手部手势作为一种非语言交流形式,在现代人机交互系统中扮演着至关重要的角色。目前,音频与视频模态信息可通过移动设备的传感器便捷获取。然而,针对自动视听语音与手势识别尚无即插即用的现成解决方案。本研究提出了两种基于深度神经网络的模型架构:一种用于视听语音识别,另一种用于手势识别。在视听语音识别方面,主要创新点在于对视觉与声学特征的精细化微调策略,以及所提出的端到端模型,该模型综合考虑了三种模态融合方式:预测级融合、特征级融合与模型级融合。在手势识别方面,核心创新在于提出了一组独特的时空特征,其中包含考虑唇部发音运动信息的特征。由于目前尚无适用于联合任务的公开数据集,我们基于两个大规模语料库——LRW与AUTSL——对所提方法进行了评估,并在视听语音识别与手势识别任务上均优于现有方法。实验结果表明,在LRW数据集上,AVSR识别准确率达到98.76%;在AUTSL数据集上,手势识别准确率达到98.56%。上述结果不仅验证了所提出方法的优异性能,更证明了利用移动设备传感器实现视听语音与手势联合识别的可行性与潜力。