15 天前

双路径Transformer网络:面向端到端单声道语音分离的直接上下文感知建模

Jingjing Chen, Qirong Mao, Dong Liu
双路径Transformer网络:面向端到端单声道语音分离的直接上下文感知建模
摘要

当前主流的语音分离模型大多基于复杂的循环神经网络(RNN)或卷积神经网络(CNN),通过间接依赖上下文信息来建模语音序列,例如在循环神经网络中通过多个中间状态传递信息,这种机制导致分离性能受限。本文提出一种双路径Transformer网络(Dual-Path Transformer Network, DPTNet),用于端到端语音分离,其核心在于在语音序列建模中引入直接的上下文感知能力。通过引入一种改进的Transformer结构,语音序列中的元素能够实现直接交互,从而使DPTNet具备直接上下文感知的建模能力。该改进的Transformer通过在原始Transformer中融合循环神经网络,无需依赖位置编码即可学习语音序列的顺序信息。此外,双路径结构设计使得模型在建模极长语音序列时具有更高的效率。在基准数据集上的大量实验表明,所提方法显著优于当前最先进的技术,在公开的WSJ0-2mix数据集上取得了20.6 dB的信噪比(SDR)性能。

双路径Transformer网络:面向端到端单声道语音分离的直接上下文感知建模 | 最新论文 | HyperAI超神经