2ヶ月前

音声強化と残響除去における拡散型生成モデルの利用

Julius Richter; Simon Welker; Jean-Marie Lemercier; Bunlong Lay; Timo Gerkmann
音声強化と残響除去における拡散型生成モデルの利用
要約

本研究では、我々の前回の発表を基に、拡散型生成モデルを用いた音声強化について取り組んでいます。確率微分方程式に基づく拡散プロセスの詳細な概要を提示し、その影響に関する広範な理論的検討を行っています。通常の条件付き生成タスクとは異なり、逆プロセスは純粋なガウシアンノイズからではなく、ノイジースピーチとガウシアンノイズの混合から開始します。これは、クリーンスピーチからノイジースピーチへ移行する前方プロセスにおいてドリフト項を含むことにより対応しています。この手順が高品質なクリーンスピーチ推定を30ステップの拡散で生成可能であることを示しています。ネットワークアーキテクチャを適応させることで、音声強化性能を大幅に向上させることができました。これにより、元のアプローチにおける主な制限は形式論ではなくネットワークであったことが示唆されます。広範なクロスデータセット評価を通じて、改善された手法が最近の識別モデルと競争できることを示し、訓練に使用しなかったコーパスでの評価においてもより優れた汎化性能を達成していることが確認されました。実世界のノイズ含有録音を使用した楽器評価と聴取実験を行い、提案手法が最良と評価された結果を補完しています。逆プロセスの解法に異なるサンプラ設定を使用することで、提案手法の性能と計算速度とのバランスを取りました。さらに、提案手法が除湿(dereverberation)にも適しており、加法的な背景ノイズ除去に限定されないことを示しています。コードとオーディオ例はオンラインで入手可能です(https://github.com/sp-uhh/sgmse)。

音声強化と残響除去における拡散型生成モデルの利用 | 最新論文 | HyperAI超神経