17日前
DCCRN:位相感知音声強調のための深層複素畳み込み再帰ネットワーク
Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie

要約
音声強調技術は、深層学習の成功により、話者の意図の明確さ(intelligibility)および聴覚的質感(perceptual quality)の面で著しい進展を遂げてきた。従来の時間周波数(TF)領域手法は、単純な畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)を用いて、TFマスクまたは音声スペクトルを予測することに焦点を当てていた。近年の研究の一部では、複素数値スペクトログラムを学習ターゲットとして用いるが、実数値ネットワーク上で学習を行い、それぞれ大きさ成分と位相成分、あるいは実部と虚部を予測するアプローチが採られている。特に、畳み込み符号化器デコーダ(CED)構造と長期短期記憶(LSTM)を統合した畳み込み再帰ネットワーク(CRN)は、複素数値ターゲットに対する処理において有効であることが実証されている。本研究では、複素数値ターゲットの学習をより効果的に行うために、複素数値演算を模倣する新しいネットワーク構造を設計した。これを「深層複素畳み込み再帰ネットワーク(Deep Complex Convolution Recurrent Network: DCCRN)」と呼ぶ。本モデルでは、CNNとRNNの両構造が複素数値演算を直接扱うことができる。提案するDCCRNモデルは、客観評価指標および主観評価指標の両面で、従来のネットワークと比較しても非常に競争力を持つ。パラメータ数わずか370万のDCCRNモデルは、Interspeech 2020 Deep Noise Suppression(DNS)チャレンジに提出され、リアルタイムトラックではMOS(平均意見スコア)において1位、ノンリアルタイムトラックでは2位を達成した。