16日前
BigVGAN:大規模学習を用いたユニバーサルニューラルボーカライザー
Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

要約
生成的敵対的ネットワーク(GAN)に基づくボコーダーの最近の進展にもかかわらず、音声特徴量を条件として原始波形を生成するモデルにおいて、さまざまな録音環境下での多数の話者に対して高精細な音声を合成することは依然として困難である。本研究では、微調整(fine-tuning)なしに多様な分布外(out-of-distribution)な状況に対して良好に一般化できる汎用的ボコーダー「BigVGAN」を提案する。我々は、GAN生成器に周期的活性化関数(periodic activation function)およびアンチエイリアシング表現(anti-aliased representation)を導入することで、音声合成に適した誘導的バイアス(inductive bias)を実現し、音声品質を著しく向上させた。さらに、従来の研究では前例のない規模で、最大1億1200万パラメータにまで拡大したGANボコーダーの学習を実施した。大規模GAN学習における失敗モードを特定し、それを解消しつつ、過度な正則化を避けながら高精細な出力を維持した。BigVGANは、クリーンな話声データ(LibriTTS)のみで学習されたものであり、未観測の話者、言語、録音環境、歌声、音楽、楽器音などのさまざまなゼロショット(out-of-distribution)条件下で、最先端の性能を達成した。コードおよびモデルは以下のリンクから公開している:https://github.com/NVIDIA/BigVGAN