2 个月前

TasNet:实时单通道语音分离的时间域音频分离网络

Yi Luo; Nima Mesgarani
TasNet:实时单通道语音分离的时间域音频分离网络
摘要

在多说话人的环境中实现鲁棒的语音处理需要有效的语音分离。近年来,深度学习系统在解决这一问题方面取得了显著进展,但在实时、低延迟应用中仍面临挑战。大多数方法试图为混合信号的时间频率表示中的每个声源构建一个掩模,但这未必是语音分离的最佳表示。此外,时间频率分解会导致固有问题,如相位/幅度解耦和为了获得足够的频率分辨率而需要较长的时间窗口。我们提出了一种时域音频分离网络(TasNet)来克服这些限制。我们直接使用编码器-解码器框架对时域信号进行建模,并在非负编码输出上执行声源分离。该方法去除了频率分解步骤,将分离问题简化为对编码输出的声源掩模估计,随后由解码器合成。我们的系统超越了当前最先进的因果和非因果语音分离算法,降低了语音分离的计算成本,并显著减少了输出所需的最小延迟。这使得TasNet适用于希望实现低功耗、实时处理的应用场景,例如可穿戴听力设备和电信设备。

TasNet:实时单通道语音分离的时间域音频分离网络 | 最新论文 | HyperAI超神经