HyperAIHyperAI
vor 2 Monaten

Das Lernen individueller Sprechstile für eine genaue Lippen- zu Sprachsynthese

Prajwal, K R ; Mukhopadhyay, Rudrabha ; Namboodiri, Vinay ; Jawahar, C V
Das Lernen individueller Sprechstile für eine genaue Lippen- zu Sprachsynthese
Abstract

Menschen neigen unwillkürlich dazu, Teile eines Gesprächs aus den Lippenbewegungen zu erschließen, wenn die Sprache fehlt oder durch äußeren Lärm beeinträchtigt wird. In dieser Arbeit untersuchen wir die Aufgabe der Lippen- zur Sprachsynthese, d.h., das Erlernen der Generierung natürlicher Sprache anhand alleiniger Lippenbewegungen eines Sprechers. Indem wir die Bedeutung kontextbezogener und sprecher-spezifischer Hinweise für eine genaue Lippenlesung anerkennen, gehen wir einen anderen Weg als bisherige Arbeiten. Wir konzentrieren uns darauf, genaue Zuordnungen von Lippenfolgen zu Sprache für einzelne Sprecher in unbeschränkten, umfangreichen Vokabularbereichen zu erlernen. Zu diesem Zweck sammeln und veröffentlichen wir einen groß angelegten Benchmark-Datensatz, der als Erster seiner Art speziell entwickelt wurde, um das Training und die Bewertung der Einzelsprecher-Lippen- zur Sprachsynthese in natürlichen Umgebungen zu ermöglichen. Wir schlagen einen neuen Ansatz mit entscheidenden Gestaltungsoptionen vor, um erstmals in solchen unbeschränkten Szenarien eine genaue und natürliche Lippen- zur Sprachsynthese zu erreichen. Eine umfangreiche Evaluierung unter Verwendung quantitativer, qualitativer Metriken sowie menschlicher Bewertungen zeigt, dass unsere Methode viermal verständlicher ist als frühere Arbeiten in diesem Bereich. Bitte sehen Sie sich unser Demo-Video an, um eine schnelle Übersicht über das Papier, die Methode und die qualitativen Ergebnisse zu erhalten.https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

Das Lernen individueller Sprechstile für eine genaue Lippen- zu Sprachsynthese | Neueste Forschungsarbeiten | HyperAI