
要約
音声強調(SE)分野における急速な進展にもかかわらず、強いノイズ環境や干渉する話者を伴う条件下で、目的音声の品質を向上させることは依然として困難な課題である。本論文では、最近提案されたバンド分割RNN(BSRNN)モデルの応用を、フルバンドSEおよびパーソナライズドSE(PSE)タスクへ拡張する。フルバンド音声における不安定な高周波成分の影響を軽減するため、低周波帯域と高周波帯域に対してそれぞれ双方向および単方向のバンドレベルモデリングを実施する。PSEタスクにおいては、対象話者の情報を活用できるように、BSRNNに話者登録モジュールを統合している。さらに、知覚品質指標の向上を図るため、MetricGANディスクリミネータ(MGD)およびマルチリゾリューションスペクトログラムディスクリミネータ(MRSD)を導入している。実験結果から、本システムは複数のトップランクSEシステムを上回り、DNS-2020テストセットにおいて最先端(SOTA)の性能を達成するとともに、DNS-2023チャレンジにおいても上位3位以内にランクインした。