HyperAIHyperAI

Command Palette

Search for a command to run...

ニューラルHMMは、高品質なアテンションフリーTTSにおいてすべてが必要である

Shivam Mehta Éva Székely Jonas Beskow Gustav Eje Henter

概要

神経ネットワークに基づくシーケンス対シーケンスTTS(音声合成)は、HMMを用いた統計的音声合成に比べて著しく優れた出力品質を達成している。しかし、神経TTSは一般的に確率的ではなく、非単調なアテンション機構を採用している。このアテンションの失敗は学習時間を延長し、合成音声が意味不明な発話となるリスクを高める。本論文では、従来のパラダイムと新しいパラダイムを統合することで、両者の利点を兼ね備えた音声合成手法を提案する。具体的には、神経ネットワークによって定義される自己回帰的かつ左から右への「スキップなし」の隠れマルコフモデル(HMM)を、神経TTSにおけるアテンション機構に置き換える。この提案に基づき、タコトロン2(Tacotron 2)を改良し、単調なアライメントを持つHMMに基づく神経TTSモデルを構築した。このモデルは、近似を用いずに全シーケンスの尤度を最大化するように学習される。また、古典的TTSと最新のTTSのアイデアを統合する手法についても述べる。得られたシステムは、タコトロン2よりも小型かつ簡素であり、少ない反復回数と少ないデータ量で発話能力を学習可能であり、ポストネット(post-net)を適用する前段階で同等の自然さを達成している。さらに、本手法は話す速度の簡単な制御を可能にするという利点も有している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ニューラルHMMは、高品質なアテンションフリーTTSにおいてすべてが必要である | 記事 | HyperAI超神経