2ヶ月前

変形可能な時間畳み込みネットワークを用いた単一音声の雑音混在残響音声分離

William Ravenscroft; Stefan Goetze; Thomas Hain
変形可能な時間畳み込みネットワークを用いた単一音声の雑音混在残響音声分離
要約

音声分離モデルは、多くの音声処理アプリケーションにおいて個々の話者を分離するために使用されます。深層学習モデルは、数々の音声分離ベンチマークで最先端(State-of-the-Art: SOTA)の結果を示しています。そのようなモデルの一つとして、時間畳み込みネットワーク(Temporal Convolutional Networks: TCNs)が注目されており、音声分離タスクで有望な結果を示しています。これらのモデルの制限点は、受容野(Receptive Field: RF)が固定されていることです。最近の音響除湿研究では、TCNの最適なRFが音声信号の残響特性に応じて変化することが示されています。本研究では、変形畳み込みを提案し、TCNモデルが様々な残響時間に対応できる動的なRFを持つことを可能にします。提案されたモデルは、WHAMRベンチマークにおいて入力信号に対して平均11.1 dBのスケール不変信号対歪み比(Scale-Invariant Signal-to-Distortion Ratio: SISDR)改善を達成しています。また、比較的小さな1.3Mパラメータを持つ変形TCNモデルが提案され、より大規模で計算量が多いモデルと同等の分離性能を発揮することが確認されました。

変形可能な時間畳み込みネットワークを用いた単一音声の雑音混在残響音声分離 | 最新論文 | HyperAI超神経