9 天前
端到端神经说话人分离方法及其无排列目标函数
Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Kenji Nagamatsu, Shinji Watanabe

摘要
本文提出了一种新颖的端到端神经网络语音说话人分离方法。与大多数现有方法不同,所提出的方法不采用独立的说话人表征提取与聚类模块,而是通过单一神经网络直接输出说话人分离结果。为实现该模型,我们将说话人分离问题建模为多标签分类任务,并引入一种无排列依赖的目标函数,从而在不受到说话人标签排列问题影响的情况下,直接最小化分离错误。除了具备端到端的简洁性外,该方法还能够显式处理训练和推理过程中的重叠语音。得益于这一优势,仅需输入对应的多说话人语音片段标签,即可轻松地使用真实录制的多说话人对话数据对模型进行训练或适应。我们在模拟语音混合数据上对该方法进行了评估,结果表明,所提方法的说话人分离错误率(Diarization Error Rate, DER)达到12.28%,而传统的基于聚类的方法则达到28.77%。此外,在CALLHOME数据集上,通过使用真实录制语音进行领域自适应,取得了25.6%的相对性能提升。本文的源代码已公开,可通过 https://github.com/hitachi-speech/EEND 获取。