HyperAIHyperAI

Command Palette

Search for a command to run...

敵対的フロー整合最適化を用いた高精度波形生成の高速化

Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee

概要

本論文では、敵対的フロー・マッチング最適化を用いた高忠実度かつ高効率な波形生成モデル「PeriodWave-Turbo」を紹介する。近年、条件付きフロー・マッチング(CFM)に基づく生成モデルは、学習に単一のベクトル場推定目標を用いることにより、波形生成タスクにおいて成功裏に適用されている。これらのモデルは高忠実度の波形信号を生成可能であるが、GANベースのモデルが単一の生成ステップで済むのに対し、著しく多くのODEステップを必要とするという課題がある。さらに、ノイズの多いベクトル場推定により、高周波成分の再現が不十分な場合が多く、生成サンプルに高周波情報が欠ける問題も指摘されている。この課題を解決するため、我々は事前学習済みのCFMベース生成モデルに固定ステップ生成器の修正を導入し、再構成損失と敵対的フィードバックを用いて高忠実度波形生成を高速化した。敵対的フロー・マッチング最適化により、わずか1,000ステップのファインチューニングで、さまざまな評価指標において最先端の性能を達成できる。また、推論速度を従来の16ステップから2ステップまたは4ステップに大幅に削減した。さらに、PeriodWaveのバックボーンを29Mパラメータから70Mパラメータに拡張することで、汎化性能を向上させ、LibriTTSデータセットにおいて音声品質の知覚評価指標(PESQ)が4.454という前例のない高いスコアを達成した。音声サンプル、ソースコード、チェックポイントは、https://github.com/sh-lee-prml/PeriodWave にて公開される。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
敵対的フロー整合最適化を用いた高精度波形生成の高速化 | 記事 | HyperAI超神経