
摘要
设备上的定向听觉需要从特定方向分离音频源,同时满足严格的、人类无法察觉的低延迟要求。尽管神经网络在性能上显著优于传统波束形成器,但现有的所有模型都无法支持计算资源受限的可穿戴设备上的低延迟因果推理。我们提出了一种名为DeepBeam的混合模型,该模型结合了传统波束形成器和自定义的轻量级神经网络。前者减轻了后者的计算负担并提高了其泛化能力,而后者则旨在进一步减少内存和计算开销,以实现实时和低延迟操作。我们的评估结果显示,在合成数据上,该模型的性能与最先进的因果推理模型相当,同时实现了模型大小减少5倍、每秒计算量减少4倍、处理时间减少5倍,并且对实际硬件数据具有更好的泛化能力。此外,我们的实时混合模型在专为低功耗可穿戴设备设计的移动CPU上运行时间为8毫秒,并实现了端到端17.5毫秒的延迟。