17日前
MANNER:ノイズ除去のための多視点アテンションネットワーク
Hyun Joon Park, Byung Ha Kang, Wooseok Shin, Jin Sob Kim, Sung Won Han

要約
音声強調分野において、時間領域手法は高精度と効率性の両立に課題を抱えている。近年、長期間の順序的特徴を表現するために二重パス(dual-path)モデルが採用されたが、依然として表現力に限界があり、メモリ効率も低いという問題がある。本研究では、時間領域信号に適用可能な畳み込み型エンコーダ・デコーダとマルチビュー注意力ブロックを組み合わせた、ノイズ除去用のマルチビュー注意力ネットワーク(MANNER: Multi-view Attention Network for Noise ERasure)を提案する。MANNERはノイズを含む音声から効率的に3つの異なる表現を抽出し、高品質なクリーン音声を推定する。本手法はVoiceBank-DEMANDデータセットを用いて、5つの客観的音声品質指標に基づいて評価された。実験結果から、MANNERは最先端の性能を達成しつつ、ノイズを含む音声の効率的な処理が可能であることが示された。