17日前

ターゲット特徴に対する知覚的コントラストストレッチングによる音声強調

Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao
ターゲット特徴に対する知覚的コントラストストレッチングによる音声強調
要約

音声強調(Speech Enhancement: SE)の性能は、深層学習モデルをベース関数として用いることにより著しく向上している。本研究では、さらにSE性能を向上させるため、知覚的コントラスト拡張(Perceptual Contrast Stretching: PCS)手法を提案する。PCSは臨界帯域重要度関数に基づいて導出され、SEモデルのターゲットを修正するために適用される。具体的には、知覚的重要性に基づいてターゲット特徴のコントラストを拡張することで、全体的なSE性能を向上させる。従来の後処理ベースの実装と比較して、PCSを学習フェーズに組み込むことで、性能の維持とオンライン計算量の削減が可能となる。特に、PCSは異なるSEモデルアーキテクチャや学習基準と組み合わせて利用可能であり、SEモデルの因果性や収束性に影響を与えない。VoiceBank-DEMANDデータセットを用いた実験結果から、本手法が因果的(PESQスコア = 3.07)および非因果的(PESQスコア = 3.35)なSEタスクにおいて、いずれも最先端の性能を達成できることを示した。