
要約
本論文では、シュレディンガー橋(Schrödinger bridge, SB)を基にした生成音声強化モデルを提案する。提案されたモデルは、扱いやすいSBを用いて、クリーン音声分布と観測されたノイジーデータの分布間のデータ間プロセスを定式化している。このモデルはデータ予測損失で訓練され、複素数値のクリーン音声係数の回復を目指しており、補助的な時間領域損失が用いられてモデルの訓練が改善される。提案されたSBベースのモデルの有効性は、2つの異なる音声強化タスクである音声除燥と音響除混響において評価された。実験結果は、提案されたSBベースのモデルが拡散モデルよりも音質指標や自動音声認識(ASR)性能において優れていることを示しており、例えば最良のベースラインモデルと比較して除燥では相対的な単語誤り率が20%減少し、除混響では6%減少した。また、提案されたモデルは効率性も向上しており、同じサンプリングステップ数でより高い品質を達成し、計算コストも削減されている。