17日前

Mambaの導入に関する音声強調の検討

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao
Mambaの導入に関する音声強調の検討
要約

本研究では、音声強調(Speech Enhancement, SE)タスク向けにスケーラブルな状態空間モデル(State-Space Model, SSM)であるMambaの性能を検討する。本研究では、Mambaを基盤とする回帰モデルを活用して音声信号の特徴を表現し、Mambaを基盤とするSEシステムを構築した。このシステムを「SEMamba」と命名する。SEMambaは、基本的および高度なSEシステムにMambaをコアモデルとして統合することで、その特性を検証した。さらに、信号レベルの距離指標およびメトリクス指向の損失関数を併用して評価を行った。その結果、SEMambaは有望な性能を示し、VoiceBank-DEMANDデータセットにおいてPESQスコア3.55を達成した。また、知覚的コントラスト伸張(perceptual contrast stretching)技術と組み合わせることで、新たなSOTA(State-of-the-Art)となるPESQスコア3.69を達成した。