16日前

PeriodWave:高忠実度波形生成のための多周期フロー・マッチング

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
PeriodWave:高忠実度波形生成のための多周期フロー・マッチング
要約

最近、さまざまな分布外(out-of-distribution)なシナリオを前提とした普遍的な波形生成タスクが注目されている。GANベースの手法は高速な波形生成においてその優位性を示しているが、2段階テキスト到音声(text-to-speech)のようなトレーニングと推論の不一致状況に対しては脆弱である。一方で、拡散モデル(diffusion-based models)は他の分野において優れた生成性能を発揮しているものの、波形生成タスクにおける推論速度の遅さから注目を浴びていない。特に、高解像度波形信号に内在する自然な周期的特徴を明示的に分離できる生成器アーキテクチャは存在しない。本論文では、新しい普遍的波形生成モデル「PeriodWave」を提案する。まず、ベクトル場推定時に波形信号の周期的特徴を捉えることができる「周期意識型フロー・マッチング推定器」を導入する。さらに、重複を回避する多周期推定器を用いて、波形信号の異なる周期的特徴を効果的に捉える。周期数を増やすことで性能が顕著に向上する一方で、計算コストも増大する。この問題を緩和するため、周期ごとのバッチ推論を並列で行える「単一周期条件付き普遍推定器」も提案する。また、高周波成分のモデリングに向け、波形信号の周波数情報を損失なしに分離するための離散ウェーブレット変換(discrete wavelet transform)を活用し、波形生成における高周波ノイズを低減するためのFreeUを導入する。実験結果から、本モデルはMelスペクトログラム再構成およびテキスト到音声タスクの両方において、従来モデルを上回る性能を示した。すべてのソースコードは、https://github.com/sh-lee-prml/PeriodWave にて公開される。

PeriodWave:高忠実度波形生成のための多周期フロー・マッチング | 最新論文 | HyperAI超神経