2ヶ月前
OverFlow: ニューラルトランスデューサーにフローを重ねて更好的なTTSを実現する 注:「更好的」は中国語の表現であり、日本語では「より良い」や「改善された」などの表現が自然です。したがって、より適切な訳は以下のようになります。 OverFlow: ニューラルトランスデューサーにフローを重ねてより良いTTSを実現する
Shivam Mehta; Ambika Kirkland; Harm Lameris; Jonas Beskow; Éva Székely; Gustav Eje Henter

要約
ニューラルHMMは、テキストから音声への変換におけるシーケンス・ツー・シーケンスモデリングのために最近提案された神経変換器の一種です。古典的な統計的音声合成と現代の神経TTS(Text-to-Speech)の最良の特徴を組み合わせており、少ないデータと訓練更新回数で済み、神経注意の失敗によって引き起こされる意味不明な出力が少ないという利点があります。本論文では、ニューラルHMM TTSに正規化フローを組み合わせることで、音声の高次非ガウス分布を記述しています。その結果、持続時間と音響特性を完全確率的にモデル化した強力なモデルが得られ、厳密な最大尤度法により訓練することができます。実験では、我々の提案に基づくシステムが同等の手法よりも少ない更新回数で正確な発音を生成し、主観的な音声品質も自然な音声に近いことが示されています。オーディオ例とコードについては、https://shivammehta25.github.io/OverFlow/ をご覧ください。