
摘要
语音去混响是许多语音技术应用中的一个重要环节。近年来,该领域的研究主要集中在深度神经网络模型上。时间卷积网络(TCNs)是一种被提出用于序列建模的深度学习模型,特别适用于语音去混响任务。在本研究中,提出了一种加权多膨胀深度可分离卷积来替代TCN模型中的标准深度可分离卷积。这种提出的卷积方法使得TCN能够在网络的每个卷积块中动态地关注其感受野内的局部信息或更广泛的信息。实验结果表明,这种加权多膨胀时间卷积网络(WD-TCN)在各种模型配置下均优于传统的TCN,并且使用WD-TCN模型比增加卷积块的数量更能高效地提升模型性能。相对于基线TCN,最佳性能改进达到了0.55分贝的尺度不变信号干扰比(SISDR),而表现最好的WD-TCN模型在WHAMR数据集上达到了12.26分贝的SISDR。