HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Sprachverbesserung ohne echten visuellen Datenstrom

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

Zusammenfassung

In dieser Arbeit überdenken wir die Aufgabe der Sprachverbesserung in ungehinderten, realen Umgebungen neu. Aktuelle state-of-the-art-Methoden nutzen ausschließlich den Audio-Stream und sind in ihrer Leistungsfähigkeit bei einer Vielzahl realer Geräusche begrenzt. Kürzlich vorgestellte Ansätze, die Lippenbewegungen als zusätzliche Informationsquelle nutzen, verbessern die Qualität der generierten Sprache gegenüber rein audio-basierten Methoden. Diese Verfahren lassen sich jedoch für zahlreiche Anwendungen nicht einsetzen, in denen der visuelle Stream unzuverlässig oder gar nicht vorhanden ist. Wir stellen ein neues Paradigma für die Sprachverbesserung vor, das auf jüngsten Fortschritten in der sprachgetriebenen Lippen-Synthese basiert. Mittels eines solchen Modells als Lehrnetzwerk trainieren wir ein robusteres Schülernetzwerk, um präzise Lippenbewegungen zu erzeugen, die das Rauschen verdecken und somit als „visueller Rauschfilter“ fungieren. Die Verständlichkeit der durch unsere Pseudo-Lippen-Approach verbesserten Sprache ist vergleichbar (Unterschied unter 3 %) mit derjenigen, die bei Verwendung echter Lippenbewegungen erreicht wird. Dies zeigt, dass die Vorteile der Nutzung von Lippenbewegungen auch dann genutzt werden können, wenn kein echter Video-Stream verfügbar ist. Wir evaluieren unser Modell umfassend anhand quantitativer Metriken sowie menschlicher Bewertungen. Zusätzliche Ablationsstudien und ein Demo-Video auf unserer Website mit qualitativen Vergleichen und Ergebnissen verdeutlichen eindeutig die Wirksamkeit unseres Ansatzes. Wir stellen ein Demo-Video bereit, das die Effektivität unseres vorgeschlagenen Ansatzes klar veranschaulicht: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. Der Quellcode und die Modelle werden ebenfalls für zukünftige Forschung veröffentlicht: \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Sprachverbesserung ohne echten visuellen Datenstrom | Paper | HyperAI