Les Neural HMMs sont tout ce dont vous avez besoin (pour une TTS de haute qualité sans attention)

La synthèse vocale séquentielle par réseaux neuronaux (TTS) a atteint une qualité de sortie nettement supérieure à celle de la synthèse statistique classique basée sur les modèles de Markov cachés (HMM). Toutefois, la TTS neuronale est généralement non probabiliste et utilise une attention non monotone, ce qui entraîne des échecs d’attention augmentant le temps d’entraînement et pouvant provoquer une synthèse incohérente et bégayante. Ce papier décrit comment combiner les anciens et nouveaux paradigmes afin de tirer parti des avantages des deux approches, en remplaçant l’attention dans la TTS neuronale par un modèle de Markov caché autoregressif gauche-droite sans saut, défini par un réseau neuronal. À partir de cette proposition, nous modifions Tacotron 2 pour obtenir un modèle TTS neuronal basé sur les HMM, offrant une alignement monotone, entraîné pour maximiser la vraisemblance complète de la séquence sans approximation. Nous décrivons également comment intégrer les idées issues de la TTS classique et contemporaine pour obtenir les meilleurs résultats. Le système résultant est plus petit et plus simple que Tacotron 2, apprend à parler avec moins d’itérations et avec moins de données, tout en atteignant une naturalité comparable avant l’application du post-net. Notre approche permet également un contrôle facile du débit de parole.