HyperAIHyperAI

Command Palette

Search for a command to run...

ES3: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations

Xilin Chen Shiguang Shan Shuang Yang Yuanhang Zhang

Zusammenfassung

Wir schlagen eine neuartige Strategie, ES3, für das selbstüberwachte Lernen robuster audio-visueller Sprachrepräsentationen aus unlabeled Talking-Face-Videos vor. Während viele aktuelle Ansätze für diese Aufgabe hauptsächlich auf der Nutzung des Audio-Modus zur Steuerung des Lernprozesses beruhen, um gemeinsame Informationen zwischen Audio und Video zu erfassen, reformulieren wir das Problem als die Erwerbung gemeinsamer, einzigartiger (modality-spezifischer) und synergistischer Sprachinformationen, um die inhärente Asymmetrie zwischen den Modalitäten zu adressieren. Auf Basis dieser Formulierung entwickeln wir eine neuartige „evolvierende“ Strategie, die schrittweise gemeinsame audio-visuelle Sprachrepräsentationen aufbaut, die sowohl für einmodale (Audio & Visuell) als auch für bidimensionale (Audio-Visuell) Sprachverarbeitung robust sind. Zunächst nutzen wir die leichter lernbare Audio-Modality, um Audio- und Visuell-Repäsentationen zu initialisieren, indem wir audio-unique und gemeinsame Sprachinformationen erfassen. Anschließend integrieren wir visuell-unique Sprachinformationen und bootstrappen die audio-visuellen Repäsentationen auf der Grundlage der zuvor erworbenen gemeinsamen Kenntnisse. Schließlich maximieren wir die gesamte audio-visuelle Sprachinformation, einschließlich synergistischer Informationen, um robuste und umfassende Repäsentationen zu erzielen. Wir implementieren ES3 als einfaches Siamese-Framework. Experimente anhand sowohl englischer Benchmarks als auch einer neu beigetragenen großen, chinesischen Sprachdatenmenge (Mandarin) belegen die Wirksamkeit der Methode. Insbesondere erreicht unser kleinstes Modell auf LRS2-BBC die Leistung von State-of-the-Art-Modellen, jedoch mit nur der Hälfte der Parameter und einem Achtel der unlabeled Daten (223h).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp