17日前

拡散ベース音声強調の分散分析

Bunlong Lay, Timo Gerkmann
拡散ベース音声強調の分散分析
要約

拡散モデルは、生成的音声強調(generative speech enhancement)において強力なモデルとして実証された。最近のSGMSE+アプローチでは、拡散過程に確率微分方程式(stochastic differential equation)を用いた学習が行われ、クリーンな音声信号にガウスノイズと環境ノイズを段階的に加える。この際、環境ノイズおよびガウスノイズを加える過程における平均と分散の進化を制御する確率微分方程式の選定によって、音声強調性能が大きく変化する。本研究では、分散のスケールが音声強調性能において決定的なパラメータであることを指摘し、これがノイズ低減と音声歪みの間のトレードオフを制御していることを示す。より具体的には、分散を大きくすることでノイズ低減性能が向上し、推定値を生成する際に必要な関数評価回数を削減でき、計算負荷の低減が可能であることを明らかにする。