6ヶ月前

音声および音声処理

マルチタスク学習

ディープラーニング

アプローチ／フレームワーク

オーディオ

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

概要

音声強調（SE）分野における急速な進展にもかかわらず、強いノイズ環境や干渉する話者を伴う条件下で、目的音声の品質を向上させることは依然として困難な課題である。本論文では、最近提案されたバンド分割RNN（BSRNN）モデルの応用を、フルバンドSEおよびパーソナライズドSE（PSE）タスクへ拡張する。フルバンド音声における不安定な高周波成分の影響を軽減するため、低周波帯域と高周波帯域に対してそれぞれ双方向および単方向のバンドレベルモデリングを実施する。PSEタスクにおいては、対象話者の情報を活用できるように、BSRNNに話者登録モジュールを統合している。さらに、知覚品質指標の向上を図るため、MetricGANディスクリミネータ（MGD）およびマルチリゾリューションスペクトログラムディスクリミネータ（MRSD）を導入している。実験結果から、本システムは複数のトップランクSEシステムを上回り、DNS-2020テストセットにおいて最先端（SOTA）の性能を達成するとともに、DNS-2023チャレンジにおいても上位3位以内にランクインした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

ディープラーニング

アプローチ／フレームワーク

オーディオ

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

概要

音声強調（SE）分野における急速な進展にもかかわらず、強いノイズ環境や干渉する話者を伴う条件下で、目的音声の品質を向上させることは依然として困難な課題である。本論文では、最近提案されたバンド分割RNN（BSRNN）モデルの応用を、フルバンドSEおよびパーソナライズドSE（PSE）タスクへ拡張する。フルバンド音声における不安定な高周波成分の影響を軽減するため、低周波帯域と高周波帯域に対してそれぞれ双方向および単方向のバンドレベルモデリングを実施する。PSEタスクにおいては、対象話者の情報を活用できるように、BSRNNに話者登録モジュールを統合している。さらに、知覚品質指標の向上を図るため、MetricGANディスクリミネータ（MGD）およびマルチリゾリューションスペクトログラムディスクリミネータ（MRSD）を導入している。実験結果から、本システムは複数のトップランクSEシステムを上回り、DNS-2020テストセットにおいて最先端（SOTA）の性能を達成するとともに、DNS-2023チャレンジにおいても上位3位以内にランクインした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています