17 天前

通道间 Conv-TasNet 用于多通道语音增强

Dongheon Lee, Seongrae Kim, Jung-Woo Choi
通道间 Conv-TasNet 用于多通道语音增强
摘要

在多通道环境下,语音增强技术已通过利用多麦克风信号中嵌入的空间信息得以实现。近年来,深度神经网络(DNN)在该领域取得了显著进展;然而,针对能够充分挖掘空间信息及通道间关系的高效多通道网络结构的研究仍处于初步阶段。本文提出了一种端到端的时域语音增强网络,该网络能够在DNN的各个层级有效建模通道间的相互关系。所提方法基于原始用于语音分离任务的全卷积时域音频分离网络(Conv-TasNet)进行扩展。我们对Conv-TasNet进行了多种改进,使其能够处理多通道输入信号,并学习通道间的关联特性。为此,我们对网络的编码器-掩码-解码器结构进行了调整,使其兼容在空间通道、特征维度和时间维度上定义的三维张量。特别地,我们对卷积结构进行了广泛的参数分析,提出将深度可分离卷积层和1×1卷积层分别独立地分配至特征维度和空间维度。实验结果表明,所提网络所增强的通道间信息在抑制来自不同方向的噪声信号方面发挥了关键作用。所提出的通道间Conv-TasNet在性能上超越了当前最先进的多通道神经网络模型,且参数量仅为后者的十分之一。模型性能在CHiME-3数据集上进行了评估,结果显示在信噪比(SDR)、感知语音质量(PESQ)和语音可懂度指数(STOI)等指标上均取得了显著提升。

通道间 Conv-TasNet 用于多通道语音增强 | 最新论文 | HyperAI超神经