
要約
近年の音声合成に関する複数の研究では、生成的敵対ネットワーク(GAN)を用いて生の波形を生成する手法が採用されている。これらの手法はサンプリング効率およびメモリ使用量の面で改善をもたらしているものの、自己回帰型およびフローに基づく生成モデルと比較して、生成音声の品質はまだ十分に達成されていない。本研究では、効率的かつ高忠実度な音声合成を実現するHiFi-GANを提案する。音声信号は異なる周期を持つ正弦波信号の組み合わせから構成されるため、音声の周期的パターンを適切にモデル化することが、生成品質の向上に極めて重要であることを示した。単一話者データセットに対する主観評価(平均意見スコア、MOS)の結果から、本手法は人間の音声品質と類似した高忠実度の22.05 kHz音声を、単一のV100 GPU上でリアルタイムの167.9倍の速度で生成できることを確認した。さらに、未観測話者のメルスペクトログラム復元およびエンドツーエンド音声合成への汎用性も示した。最後に、小型化されたHiFi-GANバージョンはCPU上でリアルタイムの13.4倍の速度で音声を生成しつつ、自己回帰型モデルと同等の品質を達成している。