16日前

敵対的フロー整合最適化を用いた高精度波形生成の高速化

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
敵対的フロー整合最適化を用いた高精度波形生成の高速化
要約

本論文では、敵対的フロー・マッチング最適化を用いた高忠実度かつ高効率な波形生成モデル「PeriodWave-Turbo」を紹介する。近年、条件付きフロー・マッチング(CFM)に基づく生成モデルは、学習に単一のベクトル場推定目標を用いることにより、波形生成タスクにおいて成功裏に適用されている。これらのモデルは高忠実度の波形信号を生成可能であるが、GANベースのモデルが単一の生成ステップで済むのに対し、著しく多くのODEステップを必要とするという課題がある。さらに、ノイズの多いベクトル場推定により、高周波成分の再現が不十分な場合が多く、生成サンプルに高周波情報が欠ける問題も指摘されている。この課題を解決するため、我々は事前学習済みのCFMベース生成モデルに固定ステップ生成器の修正を導入し、再構成損失と敵対的フィードバックを用いて高忠実度波形生成を高速化した。敵対的フロー・マッチング最適化により、わずか1,000ステップのファインチューニングで、さまざまな評価指標において最先端の性能を達成できる。また、推論速度を従来の16ステップから2ステップまたは4ステップに大幅に削減した。さらに、PeriodWaveのバックボーンを29Mパラメータから70Mパラメータに拡張することで、汎化性能を向上させ、LibriTTSデータセットにおいて音声品質の知覚評価指標(PESQ)が4.454という前例のない高いスコアを達成した。音声サンプル、ソースコード、チェックポイントは、https://github.com/sh-lee-prml/PeriodWave にて公開される。

敵対的フロー整合最適化を用いた高精度波形生成の高速化 | 最新論文 | HyperAI超神経