2ヶ月前

xLSTM-SENet: 単チャンネル音声強化用のxLSTM

Kühne, Nikolai Lund ; Østergaard, Jan ; Jensen, Jesper ; Tan, Zheng-Hua
xLSTM-SENet: 単チャンネル音声強化用のxLSTM
要約

注意メカニズムを用いたアーキテクチャ(例:コンフォーマー)は音声強化において優れた性能を発揮していますが、入力シーケンスの長さに対するスケーラビリティなどの課題に直面しています。一方、最近提案された拡張型長期短期記憶(Extended Long Short-Term Memory: xLSTM)アーキテクチャは線形スケーラビリティを提供します。しかし、xLSTMを用いたモデルは音声強化分野でまだ十分に研究されていません。本論文では、xLSTM-SENetと呼ばれる最初の単一チャンネル音声強化システムを紹介します。比較分析の結果、xLSTMだけでなくLSTMも、VoiceBank+Demandデータセットにおける音声強化において、さまざまなモデルサイズで最先端のMambaおよびコンフォーマーを基にしたシステムと同等かそれ以上の性能を示すことが明らかになりました。アブレーションスタディを通じて、指数関数的なゲーティングや双方向性など、その効果性に寄与する重要な設計選択肢が特定されました。最良のxLSTMベースのモデルであるxLSTM-SENet2は、VoiceBank+DEMANDデータセットにおいて同程度の複雑さを持つ最先端のMambaおよびコンフォーマーを基にしたシステムよりも優れた性能を発揮しました。