ES3: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations

Wir schlagen eine neuartige Strategie, ES3, für das selbstüberwachte Lernen robuster audio-visueller Sprachrepräsentationen aus unlabeled Talking-Face-Videos vor. Während viele aktuelle Ansätze für diese Aufgabe hauptsächlich auf der Nutzung des Audio-Modus zur Steuerung des Lernprozesses beruhen, um gemeinsame Informationen zwischen Audio und Video zu erfassen, reformulieren wir das Problem als die Erwerbung gemeinsamer, einzigartiger (modality-spezifischer) und synergistischer Sprachinformationen, um die inhärente Asymmetrie zwischen den Modalitäten zu adressieren. Auf Basis dieser Formulierung entwickeln wir eine neuartige „evolvierende“ Strategie, die schrittweise gemeinsame audio-visuelle Sprachrepräsentationen aufbaut, die sowohl für einmodale (Audio & Visuell) als auch für bidimensionale (Audio-Visuell) Sprachverarbeitung robust sind. Zunächst nutzen wir die leichter lernbare Audio-Modality, um Audio- und Visuell-Repäsentationen zu initialisieren, indem wir audio-unique und gemeinsame Sprachinformationen erfassen. Anschließend integrieren wir visuell-unique Sprachinformationen und bootstrappen die audio-visuellen Repäsentationen auf der Grundlage der zuvor erworbenen gemeinsamen Kenntnisse. Schließlich maximieren wir die gesamte audio-visuelle Sprachinformation, einschließlich synergistischer Informationen, um robuste und umfassende Repäsentationen zu erzielen. Wir implementieren ES3 als einfaches Siamese-Framework. Experimente anhand sowohl englischer Benchmarks als auch einer neu beigetragenen großen, chinesischen Sprachdatenmenge (Mandarin) belegen die Wirksamkeit der Methode. Insbesondere erreicht unser kleinstes Modell auf LRS2-BBC die Leistung von State-of-the-Art-Modellen, jedoch mit nur der Hälfte der Parameter und einem Achtel der unlabeled Daten (223h).