17日前

FullSubNet+：複素スペクトログラムを用いたチャネルアテンション付きFullSubNetによる音声強調

Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng

要約

これまでに提案されたFullSubNetは、ディープノイズ抑制（DNS）チャレンジにおいて優れた性能を発揮し、注目を集めている。しかし、入出力の不一致や周波数帯域における粗い処理といった課題を依然として抱えている。本論文では、以下の重要な改良を加えた単一チャネルリアルタイム音声強調フレームワーク「FullSubNet+」を提案する。まず、マルチスケール畳み込みとチャネル注意力機構を組み合わせた軽量なマルチスケール時間感応型チャネル注意力（MulCA）モジュールを設計し、ノイズ低減においてより特徴的な周波数帯域に注目できるようにした。次に、ノイズ混在音声に含まれる位相情報の有効活用を図るため、モデルはすべてのマグニチュードスペクトログラムおよび実部・虚部スペクトログラムを入力として採用している。さらに、従来の全帯域モデルに用いられていた長短期記憶（LSTM）層をスタック型時系列畳み込みネットワーク（TCN）ブロックに置き換えることで、より効率的な全帯域抽出モジュール「full-band extractor」を構築した。DNSチャレンジデータセットにおける実験結果から、本提案手法FullSubNet+が優れた性能を発揮し、最先端（SOTA）水準に達しており、既存の音声強調手法を上回ることが明らかになった。