HyperAIHyperAI

Command Palette

Search for a command to run...

Mambaの導入に関する音声強調の検討

Rong Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao

概要

本研究では、音声強調(Speech Enhancement, SE)タスク向けにスケーラブルな状態空間モデル(State-Space Model, SSM)であるMambaの性能を検討する。本研究では、Mambaを基盤とする回帰モデルを活用して音声信号の特徴を表現し、Mambaを基盤とするSEシステムを構築した。このシステムを「SEMamba」と命名する。SEMambaは、基本的および高度なSEシステムにMambaをコアモデルとして統合することで、その特性を検証した。さらに、信号レベルの距離指標およびメトリクス指向の損失関数を併用して評価を行った。その結果、SEMambaは有望な性能を示し、VoiceBank-DEMANDデータセットにおいてPESQスコア3.55を達成した。また、知覚的コントラスト伸張(perceptual contrast stretching)技術と組み合わせることで、新たなSOTA(State-of-the-Art)となるPESQスコア3.69を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています