8ヶ月前

音声および音声処理

オーディオ

Haohe Liu Woosung Choi Xubo Liu Qiuqiang Kong Qiao Tian DeLiang Wang

概要

音声スーパーレゾリューション（SR）は、高周波成分を生成することで音声のサンプリングレートを向上させるタスクである。既存の音声SR手法は、固定のアップサンプリング比などの制約のある実験設定で訓練されることが多い。これらの強い制約は、不一致のある実世界ケースでの汎化能力が低下する可能性がある。本論文では、さまざまな入力解像度とアップサンプリング比に対応可能なニューラルボコーダーに基づく音声スーパーレゾリューション手法（NVSR）を提案する。NVSRは、メル帯域拡張モジュール、ニューラルボコーダーモジュール、および後処理モジュールから構成されている。我々が提案したシステムはVCTKマルチスピーカーベンチマークにおいて最先端の結果を達成している。44.1 kHzの目標解像度において、NVSRはWSRGlowとNu-waveに対してそれぞれ対数スペクトル距離で8%と37%優れた性能を示し、著しく高い聴覚品質を達成している。また、単純なレプリケーションパディング法を使用してメル帯域拡張を行うことで、事前学習済みボコーダーにおける先行知識が音声SRにとって重要であることを示している。サンプルは以下のURLで確認できる: https://haoheliu.github.io/nvsr.

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

オーディオ

Haohe Liu Woosung Choi Xubo Liu Qiuqiang Kong Qiao Tian DeLiang Wang

概要

音声スーパーレゾリューション（SR）は、高周波成分を生成することで音声のサンプリングレートを向上させるタスクである。既存の音声SR手法は、固定のアップサンプリング比などの制約のある実験設定で訓練されることが多い。これらの強い制約は、不一致のある実世界ケースでの汎化能力が低下する可能性がある。本論文では、さまざまな入力解像度とアップサンプリング比に対応可能なニューラルボコーダーに基づく音声スーパーレゾリューション手法（NVSR）を提案する。NVSRは、メル帯域拡張モジュール、ニューラルボコーダーモジュール、および後処理モジュールから構成されている。我々が提案したシステムはVCTKマルチスピーカーベンチマークにおいて最先端の結果を達成している。44.1 kHzの目標解像度において、NVSRはWSRGlowとNu-waveに対してそれぞれ対数スペクトル距離で8%と37%優れた性能を示し、著しく高い聴覚品質を達成している。また、単純なレプリケーションパディング法を使用してメル帯域拡張を行うことで、事前学習済みボコーダーにおける先行知識が音声SRにとって重要であることを示している。サンプルは以下のURLで確認できる: https://haoheliu.github.io/nvsr.

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています