{and Ying Hu Yadong Chen Wenbing Wei Liusong Wang}

要約
複雑な音響環境下における単一チャネル混合音声の同時ノイズ除去および残響除去は、極めて挑戦的な課題とされている。本論文では、異なる粒度の特徴を抽出し、選択的に統合するための二本枝エンコーダ(Two-branch Encoder, TBE)を設計した、ノイズ除去および残響除去ネットワークであるD²Netを提案する。さらに、局所的な情報の把握を向上させるために、局所的密集合成注意(Local Dense Synthesizer Attention, LDSA)を導入したグローバル-ローカル二パス変換器(Global-Local Dual-Path Transformer, GLDPT)を設計した。提案手法D²Netは、VoiceBank+DEMANDおよびWHAMR!データセット上で評価され、アブレーションスタディが実施された。また、WHAMR!データセット内の3種類のデータを用いて、ノイズ除去のみ、残響除去のみ、および同時ノイズ除去・残響除去の各タスクにおけるD²Netの性能を検証した。実験結果から、提案モデルは比較対象モデルを上回る性能を示し、同時ノイズ除去・残響除去、残響除去のみ、ノイズ除去のみの各タスクにおいて、いずれも優れた性能を達成している一方で、ネットワークパラメータ数を極めて少ない状態で維持していることが明らかになった。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| speech-enhancement-on-demand | D²Net | CBAK: 3.18 COVL: 3.92 CSIG: 4.63 PESQ (wb): 3.27 STOI: 96 |