17日前

音声強調のためのインタラクティブな音声およびノイズモデリング

Chengyu Zheng, Xiulian Peng, Yuan Zhang, Sriram Srinivasan, Yan Lu
音声強調のためのインタラクティブな音声およびノイズモデリング
要約

音声強調は、背景ノイズの種類の多様性により、困難な課題である。既存の大多数の手法は、音声のモデル化に注力しているが、ノイズのモデル化にはあまり注目が集まっていない。本論文では、二本の分岐を持つ畳み込みニューラルネットワークを用いて、音声とノイズを同時にモデル化する新しいアプローチ、すなわちSN-Netを提案する。SN-Netでは、二つの分岐がそれぞれ音声とノイズを予測する。最終出力層でのみ情報の統合を行うのではなく、二つの分岐間の複数の中間特徴領域に相互作用モジュールを導入することで、双方が互いに補完し合うように設計されている。この相互作用により、一方の分岐から学習された特徴を活用して、他方の分岐における望ましくない成分を抑制し、欠落した成分を復元することが可能となり、結果として両者の識別能力が向上する。また、音声およびノイズの時間的・周波数的次元における相関を捉えるため、残差畳み込みと注意機構を組み合わせた特徴抽出モジュール(RA)を新たに設計した。公開データセットを用いた評価において、相互作用モジュールが同時モデル化において重要な役割を果たしていることが確認され、SN-Netは各種評価指標において最先端手法を大きく上回る性能を示した。さらに、本手法は話者分離タスクにおいても優れた性能を発揮している。

音声強調のためのインタラクティブな音声およびノイズモデリング | 最新論文 | HyperAI超神経