6ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Zhifeng Kong Wei Ping Jiaji Huang Kexin Zhao Bryan Catanzaro

概要

本研究では、条件付きおよび無条件の波形生成に応用可能な汎用的な拡散確率モデル「DiffWave」を提案する。このモデルは自己回帰型ではないものであり、合成時に一定ステップ数のマルコフ連鎖を用いて白色雑音信号を構造化された波形に変換する。データ尤度に関する変分境界の変種を最適化することで、効率的な学習が可能である。DiffWaveは、メルスペクトログラムを条件とするニューラルボコーダー、クラス条件付き生成、および無条件生成といった複数の波形生成タスクにおいて、高忠実度の音声を生成する。実験により、DiffWaveは音声品質（MOSスコア：4.44 対 4.43）において強力なWaveNetボコーダーと同等の性能を達成しつつ、合成速度は桁違いに高速であることを示した。特に、自動評価および人間評価の両面から、無条件生成という困難なタスクにおいて、自己回帰型およびGANベースの波形生成モデルを大きく上回る音声品質とサンプルの多様性を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Zhifeng Kong Wei Ping Jiaji Huang Kexin Zhao Bryan Catanzaro

概要

本研究では、条件付きおよび無条件の波形生成に応用可能な汎用的な拡散確率モデル「DiffWave」を提案する。このモデルは自己回帰型ではないものであり、合成時に一定ステップ数のマルコフ連鎖を用いて白色雑音信号を構造化された波形に変換する。データ尤度に関する変分境界の変種を最適化することで、効率的な学習が可能である。DiffWaveは、メルスペクトログラムを条件とするニューラルボコーダー、クラス条件付き生成、および無条件生成といった複数の波形生成タスクにおいて、高忠実度の音声を生成する。実験により、DiffWaveは音声品質（MOSスコア：4.44 対 4.43）において強力なWaveNetボコーダーと同等の性能を達成しつつ、合成速度は桁違いに高速であることを示した。特に、自動評価および人間評価の両面から、無条件生成という困難なタスクにおいて、自己回帰型およびGANベースの波形生成モデルを大きく上回る音声品質とサンプルの多様性を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています