6ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

概要

音声強調は、多くのユーザー指向型音声アプリケーションにおいて重要な構成要素であるが、現行のシステムは依然として歪みが大きく、不自然な出力を生じる問題を抱えている。生成モデルは音声合成において大きな可能性を示しているものの、音声強調分野ではまだその性能が遅れをとっている。本研究では、最近の拡散確率モデル（diffusion probabilistic models）の進展を活用し、観測された雑音付き音声信号の特性を拡散および逆過程に組み込む新たな音声強調アルゴリズムを提案する。具体的には、逆過程において推定音声信号内の非ガウス型実際の雑音に適応可能な、拡張された拡散確率モデルの定式化として「条件付き拡散確率モデル」（conditional diffusion probabilistic model）を提案する。実験の結果、提案手法は代表的な生成モデルと比較して優れた性能を示すことを確認した。さらに、学習時に遭遇しなかった雑音特性を持つ他のデータセットへの汎化能力についても検証を行った。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Yen-Ju Lu Zhong-Qiu Wang Shinji Watanabe Alexander Richard Cheng Yu Yu Tsao

概要

音声強調は、多くのユーザー指向型音声アプリケーションにおいて重要な構成要素であるが、現行のシステムは依然として歪みが大きく、不自然な出力を生じる問題を抱えている。生成モデルは音声合成において大きな可能性を示しているものの、音声強調分野ではまだその性能が遅れをとっている。本研究では、最近の拡散確率モデル（diffusion probabilistic models）の進展を活用し、観測された雑音付き音声信号の特性を拡散および逆過程に組み込む新たな音声強調アルゴリズムを提案する。具体的には、逆過程において推定音声信号内の非ガウス型実際の雑音に適応可能な、拡張された拡散確率モデルの定式化として「条件付き拡散確率モデル」（conditional diffusion probabilistic model）を提案する。実験の結果、提案手法は代表的な生成モデルと比較して優れた性能を示すことを確認した。さらに、学習時に遭遇しなかった雑音特性を持つ他のデータセットへの汎化能力についても検証を行った。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています