Diffsound:テキストからサウンド生成を実現する離散型拡散モデル

人間が求める音響エフェクトを生成することは重要な課題である。しかし、音響生成分野におけるテキスト条件付き音声生成に関する研究は依然として少ない。本研究では、テキストプロンプトを条件として音声を生成する手法を検討し、テキストエンコーダ、ベクトル量子化変分自己符号化器(VQ-VAE)、デコーダ、ボコーダから構成される新しいテキストから音声への生成フレームワークを提案する。このフレームワークは、まずテキストエンコーダから抽出されたテキスト特徴をVQ-VAEを介してメルスペクトログラムに変換するデコーダを用い、その後、生成されたメルスペクトログラムを波形に変換するボコーダを適用する。本研究では、デコーダが生成性能に顕著な影響を及ぼすことを発見したため、本研究では優れたデコーダの設計に焦点を当てる。まず、従来の自己回帰型(autoregressive, AR)デコーダを検討した。これは過去の音声生成研究において最先端の手法として実証されている。しかし、ARデコーダはメルスペクトログラムのトークンを順番に一つずつ逐次予測するため、単方向性バイアス(unidirectional bias)と誤差の蓄積問題が生じる。さらに、ARデコーダを用いる場合、音声生成時間は音声の長さに比例して線形に増加する。このようなARデコーダの欠点を克服するため、離散拡散モデルに基づく非自己回帰型デコーダ「Diffsound」を提案する。具体的には、Diffsoundは一度にすべてのメルスペクトログラムトークンを予測し、次のステップで予測結果を精緻化することで、複数ステップを経て最適な予測結果を得る。実験結果から、提案するDiffsoundはARデコーダと比較して、より優れたテキストから音声への生成結果を達成するとともに、生成速度も顕著に向上することが明らかになった。例えば、平均意見スコア(MOS)は3.56(Diffsound)対2.786(ARデコーダ)であり、生成速度はARデコーダの約5倍高速である。