16日前
NaturalSpeech:人間レベルの品質を実現するエンドツーエンド型テキストtoスピーチ合成
Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu

要約
近年、音声合成(Text-to-Speech: TTS)は学術界および産業界において急速な進展を遂げている。このような背景から、自然に聞こえるTTSシステムが人間レベルの品質に到達可能かどうか、その品質をどのように定義・評価するか、そしてその達成方法は何かといった重要な問いが生じる。本論文では、まず主観評価における統計的有意性に基づいて人間レベルの品質を定義し、その評価に適したガイドラインを提示することで、これらの問いに答える。さらに、そのガイドラインに基づき、ベンチマークデータセット上で人間レベルの品質を達成するTTSシステム「NaturalSpeech」を構築した。具体的には、テキストから波形へのエンドツーエンド生成を実現するため、変分自己符号化器(VAE)を採用し、テキストから事前分布(prior)の表現力を強化し、音声から事後分布(posterior)の複雑さを低減するための複数の重要なモジュールを導入した。これには、発音記号(phoneme)の事前学習、微分可能な持続時間モデリング、双方向的な事前/事後分布モデリング、およびVAE内でのメモリ機構が含まれる。一般的に用いられるLJSpeechデータセットを用いた実験評価の結果、提案するNaturalSpeechは文単位で人間の録音と比較して-0.01のCMOS(比較的平均意見スコア)を達成し、ウィルコクソン順位和検定においてp値がp ≫ 0.05という結果を示した。これは、このデータセット上で初めて人間の録音と統計的に有意差がないことを実証した初めての成果である。