
摘要
增强现实设备有潜力提升人类感知能力,并在复杂的对话环境中实现其他辅助功能。为了有效捕捉理解这些社交互动所需的视听上下文,首先需要检测和定位设备佩戴者及其周围人的语音活动。这些任务具有自我中心的特性,因此颇具挑战性:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在难以观察的角度,还可能存在遮挡、视觉杂乱、音频噪声和不良照明等问题。在这些条件下,先前最先进的主动说话人检测方法无法给出令人满意的结果。相反,我们从一个新的角度出发,利用视频和多通道麦克风阵列音频来解决这一问题。我们提出了一种新颖的端到端深度学习方法,能够提供稳健的语音活动检测和定位结果。与以往的方法不同,我们的方法可以从球体上所有可能的方向定位主动说话人,即使在摄像头视野之外也能做到这一点,同时还能检测设备佩戴者自身的语音活动。实验结果表明,所提出的方法具有优越的性能,能够实时运行,并且对噪声和杂乱环境具有较强的鲁棒性。