
要約
生成モデルの最近の進展により、さまざまな表現から音声波形の再構成が著しく向上している。拡散モデル(diffusion models)はこのタスクにおいて優れた性能を発揮するが、個々のサンプル点レベルでの処理と多数のサンプリングステップが必要なため、遅延問題に直面している。本研究では、メルスペクトログラムや離散音響トークンから高精細な音声波形を再構成することを目的として、マルチバンド型のリクチファイドフロー(Rectified Flow)アプローチであるRFWaveを提案する。RFWaveは、複雑なスペクトログラムを生成し、フレーム単位で処理することで、すべてのサブバンドを同時に処理し、効率性を大幅に向上させる点が特徴である。リクチファイドフローの特性として、直線的な輸送軌道を最適化することを目的としており、わずか10ステップのサンプリングで高精度な再構成が実現可能である。実験評価の結果、RFWaveは優れた再構成品質を達成するとともに、計算効率においても大幅な優位性を示し、GPU上でリアルタイム比で最大160倍の高速な音声生成が可能である。オンラインデモは以下のURLで公開されている:https://rfwave-demo.github.io/rfwave/。