
摘要
我们提出了一种新的方法,用于分离同时发声的多语音混合音频序列。该方法采用门控神经网络,在多个处理步骤中训练以分离不同语音,同时保持每个输出通道中的说话人身份固定不变。针对每种可能的说话人数量,训练一个独立的模型,并在实际应用中,选用能处理最多说话人数的模型来确定给定音频样本中的真实说话人数。实验结果表明,该方法显著优于当前最先进的技术;如我们所展示的,现有方法在超过两个说话人的情况下已不具备竞争力。
我们提出了一种新的方法,用于分离同时发声的多语音混合音频序列。该方法采用门控神经网络,在多个处理步骤中训练以分离不同语音,同时保持每个输出通道中的说话人身份固定不变。针对每种可能的说话人数量,训练一个独立的模型,并在实际应用中,选用能处理最多说话人数的模型来确定给定音频样本中的真实说话人数。实验结果表明,该方法显著优于当前最先进的技术;如我们所展示的,现有方法在超过两个说话人的情况下已不具备竞争力。