9 天前

端到端神经说话人分离方法及其自注意力机制

Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, Shinji Watanabe

摘要

说话人分离（Speaker Diarization）传统上主要基于说话人嵌入（speaker embeddings）的聚类方法。然而，基于聚类的方法存在两个主要问题：其一，该方法并未直接针对最小化分离错误进行优化；其二，难以正确处理说话人重叠的情况。为解决上述问题，近期提出了端到端神经说话人分离（End-to-End Neural Diarization, EEND）方法，该方法利用双向长短期记忆网络（Bidirectional Long Short-Term Memory, BLSTM）直接从多说话人语音录音中输出说话人分离结果。在本研究中，我们通过引入自注意力（self-attention）模块替代原有的BLSTM模块，对EEND方法进行了改进。与仅依赖前后隐藏状态的BLSTM不同，自注意力机制能够直接基于所有其他帧的信息进行条件建模，因而更适用于处理说话人分离任务中的复杂上下文依赖关系。我们在模拟混合语音、真实电话通话以及真实对话录音三种数据集上对所提出方法进行了评估。实验结果表明，自注意力机制是实现优异性能的关键因素，所提方法在各项指标上均显著优于传统的基于BLSTM的方法，甚至超越了当前最先进的基于x-vector聚类的方法。此外，通过可视化潜在表示（latent representation），我们进一步发现，自注意力机制不仅能捕捉局部语音活动动态，还能有效建模全局说话人特征。本研究的源代码已公开，可访问 https://github.com/hitachi-speech/EEND 获取。