
要約
本論文では、敵対的フロー・マッチング最適化を用いた高忠実度かつ高効率な波形生成モデル「PeriodWave-Turbo」を紹介する。近年、条件付きフロー・マッチング(CFM)に基づく生成モデルは、学習に単一のベクトル場推定目標を用いることにより、波形生成タスクにおいて成功裏に適用されている。これらのモデルは高忠実度の波形信号を生成可能であるが、GANベースのモデルが単一の生成ステップで済むのに対し、著しく多くのODEステップを必要とするという課題がある。さらに、ノイズの多いベクトル場推定により、高周波成分の再現が不十分な場合が多く、生成サンプルに高周波情報が欠ける問題も指摘されている。この課題を解決するため、我々は事前学習済みのCFMベース生成モデルに固定ステップ生成器の修正を導入し、再構成損失と敵対的フィードバックを用いて高忠実度波形生成を高速化した。敵対的フロー・マッチング最適化により、わずか1,000ステップのファインチューニングで、さまざまな評価指標において最先端の性能を達成できる。また、推論速度を従来の16ステップから2ステップまたは4ステップに大幅に削減した。さらに、PeriodWaveのバックボーンを29Mパラメータから70Mパラメータに拡張することで、汎化性能を向上させ、LibriTTSデータセットにおいて音声品質の知覚評価指標(PESQ)が4.454という前例のない高いスコアを達成した。音声サンプル、ソースコード、チェックポイントは、https://github.com/sh-lee-prml/PeriodWave にて公開される。