17日前

リアルタイムノイズ抑制のためのデュアルシグナル変換LSTMネットワーク

Nils L. Westhausen, Bernd T. Meyer
リアルタイムノイズ抑制のためのデュアルシグナル変換LSTMネットワーク
要約

本論文では、Deep Noise Suppression Challenge(DNS-Challenge)の一環として、リアルタイム音声強調を目的にした二重信号変換LSTMネットワーク(DTLN)を提案する。本手法は、スタック構造を採用し、短時間フーリエ変換(STFT)と学習された解析・合成基底を組み合わせることで、100万パラメータ未満の小規模なモデル実装を実現している。モデルは、チャレンジ主催者から提供された500時間分のノイズ混在音声データを用いて学習された。本ネットワークはリアルタイム処理(1フレーム入力、1フレーム出力)が可能であり、競争力のある性能を達成している。この二種類の信号変換の組み合わせにより、DTLNはマグニチュードスペクトルからの情報の堅牢な抽出と、学習された特徴基底から得られる位相情報を効果的に統合することが可能となる。実験結果から、本手法は最先端の性能を示し、平均意見スコア(MOS)においてDNS-Challengeのベースラインを0.24ポイントの絶対値で上回った。