Visuelle Sprachverbesserung ohne echten visuellen Datenstrom

In dieser Arbeit überdenken wir die Aufgabe der Sprachverbesserung in ungehinderten, realen Umgebungen neu. Aktuelle state-of-the-art-Methoden nutzen ausschließlich den Audio-Stream und sind in ihrer Leistungsfähigkeit bei einer Vielzahl realer Geräusche begrenzt. Kürzlich vorgestellte Ansätze, die Lippenbewegungen als zusätzliche Informationsquelle nutzen, verbessern die Qualität der generierten Sprache gegenüber rein audio-basierten Methoden. Diese Verfahren lassen sich jedoch für zahlreiche Anwendungen nicht einsetzen, in denen der visuelle Stream unzuverlässig oder gar nicht vorhanden ist. Wir stellen ein neues Paradigma für die Sprachverbesserung vor, das auf jüngsten Fortschritten in der sprachgetriebenen Lippen-Synthese basiert. Mittels eines solchen Modells als Lehrnetzwerk trainieren wir ein robusteres Schülernetzwerk, um präzise Lippenbewegungen zu erzeugen, die das Rauschen verdecken und somit als „visueller Rauschfilter“ fungieren. Die Verständlichkeit der durch unsere Pseudo-Lippen-Approach verbesserten Sprache ist vergleichbar (Unterschied unter 3 %) mit derjenigen, die bei Verwendung echter Lippenbewegungen erreicht wird. Dies zeigt, dass die Vorteile der Nutzung von Lippenbewegungen auch dann genutzt werden können, wenn kein echter Video-Stream verfügbar ist. Wir evaluieren unser Modell umfassend anhand quantitativer Metriken sowie menschlicher Bewertungen. Zusätzliche Ablationsstudien und ein Demo-Video auf unserer Website mit qualitativen Vergleichen und Ergebnissen verdeutlichen eindeutig die Wirksamkeit unseres Ansatzes. Wir stellen ein Demo-Video bereit, das die Effektivität unseres vorgeschlagenen Ansatzes klar veranschaulicht: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. Der Quellcode und die Modelle werden ebenfalls für zukünftige Forschung veröffentlicht: \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.