
要約
私たちは、音声強化にWave-U-Netアーキテクチャを使用することを研究しています。これはStollerらによって音楽のボーカルと伴奏の分離のために導入されたモデルです。このエンドツーエンド学習手法は、直接時間領域で動作し、位相情報の統合モデリングを可能にするとともに、大きな時間的なコンテキストを考慮に入れることができます。私たちの実験では、提案手法がVoice Bankコーパス(VCTK)データセットにおける音声強化タスクにおいて、PESQ、CSIG、CBAK、COVLおよびSSNRなどの複数の指標で最先端技術を超えることを示しています。歌唱ボイス分離向けに設計された元のシステムと比較して、音声強化には少ない数の隠れ層でも十分であることがわかりました。この初期結果は、時間領域での音声強化をさらに探求するための励みとなるものであり、音声認識システムの前処理ステップとしても有用であると考えています。