17 天前
TS-SEP:基于估计说话人嵌入的联合说话人分离与分割
Christoph Boeddeker, Aswin Shanmugam Subramanian, Gordon Wichern, Reinhold Haeb-Umbach, Jonathan Le Roux

摘要
由于会议数据中的说话人分离与语音分离任务密切相关,本文提出一种联合实现这两项目标的方案。该方法基于目标说话人语音活动检测(TS-VAD)的说话人日志技术,假设初始的说话人嵌入(speaker embeddings)已知。我们用一个能够在时频域输出说话人活动估计的新网络,替代了TS-VAD中原本的最终联合说话人活动估计网络。该时频域的活动估计结果可作为掩蔽(masking)或波束成形(beamforming)技术中的掩码,用于语音源分离。该方法既适用于单通道输入,也适用于多通道输入,在两种情况下均在LibriCSS会议数据的语音识别任务上取得了新的最先进词错误率(WER)性能。此外,为进一步分析日志错误对整体WER性能的影响,我们分别计算了基于说话人感知(speaker-aware)与说话人无关(speaker-agnostic)的WER指标。