2ヶ月前
Neural Vocoder は音声スーパーレゾリューションに必要なすべてです
Liu, Haohe ; Choi, Woosung ; Liu, Xubo ; Kong, Qiuqiang ; Tian, Qiao ; Wang, DeLiang

要約
音声スーパーレゾリューション(SR)は、高周波成分を生成することで音声のサンプリングレートを向上させるタスクである。既存の音声SR手法は、固定のアップサンプリング比などの制約のある実験設定で訓練されることが多い。これらの強い制約は、不一致のある実世界ケースでの汎化能力が低下する可能性がある。本論文では、さまざまな入力解像度とアップサンプリング比に対応可能なニューラルボコーダーに基づく音声スーパーレゾリューション手法(NVSR)を提案する。NVSRは、メル帯域拡張モジュール、ニューラルボコーダーモジュール、および後処理モジュールから構成されている。我々が提案したシステムはVCTKマルチスピーカーベンチマークにおいて最先端の結果を達成している。44.1 kHzの目標解像度において、NVSRはWSRGlowとNu-waveに対してそれぞれ対数スペクトル距離で8%と37%優れた性能を示し、著しく高い聴覚品質を達成している。また、単純なレプリケーションパディング法を使用してメル帯域拡張を行うことで、事前学習済みボコーダーにおける先行知識が音声SRにとって重要であることを示している。サンプルは以下のURLで確認できる: https://haoheliu.github.io/nvsr.