17日前

高次潜在領域における細粒度符号化を用いた段階的精製型音声分離ネットワーク

Zengwei Yao, Wenjie Pei, Fanglin Chen, Guangming Lu, David Zhang
高次潜在領域における細粒度符号化を用いた段階的精製型音声分離ネットワーク
要約

単一チャネル音声分離の核心的な課題は、異なる話者からの信号を正確に分離できるように、混合信号をどのような潜在的埋め込み空間に符号化するかにある。従来の音声分離手法は、音声信号を周波数領域に変換して分離を行うものや、畳み込みフィルタに基づいて潜在領域を構築することで分離可能な埋め込み空間を学習しようとするものがある。後者の手法は埋め込み空間の学習によって音声分離性能に顕著な向上をもたらしているが、本研究では、単一の潜在領域によって定義される埋め込み空間だけでは、音声分離に完全に分離可能な符号化空間を提供しきれないという主張を行う。本論文では、粗いから細かい段階に分けて分離を行う「段階的精緻化音声分離ネットワーク(Stepwise-Refining Speech Separation Network, SRSSN)」を提案する。まず、1次元の潜在領域を学習して符号化空間を定義し、粗い段階で概略的な分離を実行する。その後、既存の潜在領域の各基底関数に沿って新たな潜在領域を学習することで、高次元の潜在領域を獲得する精緻化段階に入り、より精密な分離を実現する。広範な実験を通じて、本SRSSNの有効性を検証した。具体的には、WSJ0-2/3mixデータセットを用いたノイズフリー環境下の音声分離、およびWHAM!/WHAMR!データセットを用いたノイズあり/残響あり環境下の音声分離実験を実施した。さらに、提案モデルによって分離された音声信号を用いて音声認識実験も行ったことで、音声分離性能を間接的に評価した。