
摘要
最近,端到端神经说话人分离(End-to-End Neural Diarization, EEND)方法被提出,并在说话人重叠场景中取得了令人瞩目的成果。在EEND中,说话人分离被建模为一个多标签预测问题,其中各说话人的活动被独立估计,未能充分考虑说话人之间的依赖关系。为克服上述局限,本文采用幂集编码(power set encoding)将说话人分离重新建模为单标签分类问题,提出了一种面向重叠场景的端到端神经分离模型(EEND-OLA),从而能够显式地建模说话人重叠及其相互依赖关系。受两阶段混合系统成功经验的启发,我们进一步提出了一种新型的两阶段重叠感知说话人分离框架(Two-stage OverLap-aware Diarization, TOLD),该框架引入了一个面向说话人重叠的后处理模型(Speaker Overlap-aware Post-processing, SOAP),通过迭代方式对EEND-OLA的输出结果进行精细化优化。实验结果表明,与原始EEND相比,所提出的EEND-OLA在说话人分离错误率(Diarization Error Rate, DER)上实现了14.39%的相对提升;而引入SOAP后,进一步获得了19.33%的相对改进。最终,所提方法TOLD在CALLHOME数据集上取得了10.14%的DER,据我们所知,这是该基准测试上的最新最先进(state-of-the-art)结果。