Synthèse unifiée de la parole et des gestes par correspondance de flux

Alors que les technologies de synthèse vocale à partir de texte atteignent une naturalité remarquable dans les tâches de lecture à voix haute, un intérêt croissant se porte sur la synthèse multimodale du comportement verbal et non verbal, tel que le discours spontané associé à des gestes corporels. Ce papier présente une nouvelle architecture unifiée pour la synthèse conjointe des caractéristiques acoustiques du speech et du mouvement gestuel 3D basé sur les squelettes à partir d’un texte, entraînée à l’aide d’un modèle de correspondance de flux conditionnel fondé sur le transport optimal (OT-CFM). L’architecture proposée est plus simple que l’état de l’art précédent, présente une empreinte mémoire réduite, et permet de capturer la distribution conjointe du speech et des gestes, générant les deux modalités simultanément dans un seul processus. Par ailleurs, le nouveau régime d’entraînement permet d’obtenir une qualité de synthèse supérieure en bien moins d’étapes (évaluations de réseau) qu’auparavant. Des tests subjectifs unimodaux et multimodaux démontrent une amélioration significative de la naturalité du speech, de la ressemblance humaine des gestes et de la pertinence intermodale par rapport aux références existantes. Veuillez consulter https://shivammehta25.github.io/Match-TTSG/ pour des exemples vidéo et le code source.