HyperAIHyperAI
vor 2 Monaten

ReVISE: Selbstüberwachte Sprachresynthese mit visueller Eingabe für universelle und generalisierte Sprachverbesserung

Wei-Ning Hsu; Tal Remez; Bowen Shi; Jacob Donley; Yossi Adi
ReVISE: Selbstüberwachte Sprachresynthese mit visueller Eingabe für universelle und generalisierte Sprachverbesserung
Abstract

Frühere Arbeiten zur Verbesserung der Sprachqualität durch visuelle Eingabe untersuchen in der Regel jede Art von auditiver Verzerrung getrennt (z. B. Trennung, Inpainting, Video-zu-Sprache) und präsentieren angepasste Algorithmen. Dieses Papier schlägt vor, diese Themen zu vereinen und die verallgemeinerte Spracherhöhung zu studieren, bei der das Ziel nicht die exakte Rekonstruktion des Referenzsignals ist, sondern sich auf die Verbesserung bestimmter Aspekte der Sprache konzentriert. Insbesondere betrifft dies Intelligibilität, Qualität und Videosynchronisation. Wir formulieren das Problem als audiovisuelle Sprachresynthese, die aus zwei Schritten besteht: Pseudo-audiovisueller Spracherkennung (P-AVSR) und Pseudo-Text-zu-Sprachsynthese (P-TTS). P-AVSR und P-TTS sind durch diskrete Einheiten verbunden, die aus einem selbstüberwachten Sprachmodell abgeleitet werden. Darüber hinaus nutzen wir ein selbstüberwachtes audiovisuelles Sprachmodell, um P-AVSR zu initialisieren. Das vorgeschlagene Modell wird ReVISE genannt. ReVISE ist das erste hochwertige Modell für die Synthese von natürlicher Video-zu-Sprache und erzielt überlegene Leistungen in allen LRS3 audiovisuellen Erweiterungsaufgaben mit einem einzigen Modell. Um seine Anwendbarkeit in der realen Welt zu demonstrieren, wurde ReVISE auch auf EasyCom evaluiert, einem unter schwierigen akustischen Bedingungen gesammelten audiovisuellen Benchmark mit nur 1,6 Stunden Trainingsdaten. Ähnlich wie bei den LRS3-Aufgaben unterdrückt ReVISE stark Rauschen und verbessert die Qualität. Projektseite: https://wnhsu.github.io/ReVISE.