
摘要
语音去混响在鲁棒语音处理任务中通常是重要的需求。监督深度学习(DL)模型在单通道语音去混响任务中表现出最先进的性能。时间卷积网络(TCNs)在语音增强任务中常用于序列建模。TCNs的一个特点是其感受野(RF)取决于特定的模型配置,这决定了生成单个输出帧时可以观察到的输入帧数量。已有研究表明,TCNs能够对模拟语音数据进行去混响处理,但在文献中尚缺乏对其感受野的深入分析。本文分析了TCNs的去混响性能与其模型大小和感受野的关系。实验使用了扩展后的WHAMR语料库,该语料库包含了具有更大T60值的房间脉冲响应(RIRs),结果表明,在训练较小的TCN模型时,更大的感受野可以显著提高性能。此外,研究还证明了当处理具有较大RT60值的RIRs时,TCNs从更宽的感受野中受益。注释:- T60值:表示声学环境中声音衰减60分贝所需的时间,是衡量房间混响程度的重要参数。- RT60值:与T60值相同,通常用于描述房间脉冲响应中的混响时间。