16日前

WaveFlow:生音用のコンパクトなフロー基盤モデル

Wei Ping, Kainan Peng, Kexin Zhao, Zhao Song
WaveFlow:生音用のコンパクトなフロー基盤モデル
要約

本研究では、最大尤度により直接学習可能な、原始音声用の小型フットプリントを持つ生成的フローとしてWaveFlowを提案する。WaveFlowは、拡張された2次元畳み込みアーキテクチャを用いて1次元波形の長距離構造を扱い、同時に表現力豊かな自己回帰関数により局所的な変動をモデル化する。WaveFlowは、WaveNetやWaveGlowを特殊ケースとして含む、1次元データに対する尤度ベースモデルの統一的な枠組みを提供する。WaveNetと同様に高精細な音声を生成する一方で、数十万時間ステップにわたる長い波形を生成する際にわずかな逐次ステップで済むため、WaveGlowに比べて数オーダー高速に音声合成が可能である。さらに、効率的な音声合成において長年存在してきた自己回帰モデルとフローに基づくモデルの間の尤度ギャップを顕著に縮小できる。最後に、本研究で提案する小型フットプリントのWaveFlowはパラメータ数が591万(5.91M)にとどまり、WaveGlowの15分の1のサイズにまで削減されている。V100 GPU上で、特別な最適化インファレンスカーネルを用いずに、22.05 kHzの高精細音声をリアルタイムの42.6倍(939.3 kHz)の速度で生成可能である。

WaveFlow:生音用のコンパクトなフロー基盤モデル | 最新論文 | HyperAI超神経