2 个月前

语音提取的一种替代方法

Pham, The Hieu ; Nguyen, Phuong Thanh Tran ; Nguyen, Xuan Tho ; Nguyen, Tan Dat ; Nguyen, Duc Dung
语音提取的一种替代方法
摘要

基于音频线索的目标说话人提取(Target Speaker Extraction, TSE)研究主要集中在建模混合语音和参考语音上,由于大量数据集的可用性,该领域在英语中的性能已经达到了较高水平。然而,对于人类语音在不同语言中的一致性特征,研究的关注较少。为了弥补这一差距,我们提出了一种替代模型,该模型能够在无需微调的情况下解决从一种语言到另一种语言的TSE模型迁移问题。在这项工作中,我们设计了一种门控机制,能够根据说话人的声学特征调整特定频率。该模型在干净的英语语音上的SI-SDR得分为17.3544,在混有Wham!噪声的干净语音上的SI-SDR得分为13.2032,其适应不同语言的能力超过了所有其他模型。

语音提取的一种替代方法 | 最新论文 | HyperAI超神经