vor 10 Tagen

Audio-Visual Representation Learning durch Knowledge Distillation aus Speech Foundation Models

Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling

Abstract

Die audio-visuelle Repräsentationslernung ist entscheidend für den Fortschritt multimodaler Sprachverarbeitungsaufgaben wie Lippenlesen und audio-visuelle Spracherkennung. In jüngster Zeit haben Sprachgrundmodelle (Speech Foundation Models, SFMs) bemerkenswerte Verallgemeinerungsfähigkeiten bei einer Vielzahl sprachbezogener Aufgaben gezeigt. Aufbauend auf diesen Fortschritten stellen wir ein audio-visuelles Repräsentationslernmodell vor, das auf der Kreuzmodalknowledge-Distillation aus SFMs basiert. In unserem Ansatz fungieren SFMs als Lehrer, aus denen mittels sauberer Audioeingaben mehrschichtige versteckte Repräsentationen extrahiert werden. Zudem führen wir eine Multi-Teacher-Ensemble-Methode ein, um das Schülermodell zu distillieren, das audio-visuelle Daten als Eingaben erhält. Eine neuartige Verfahrens- und Repräsentationswissen-Distillationsschwelle wird während der Vortrainingsphase verwendet, um das Schülermodell zu trainieren, und auch während des Fine-Tunings angewandt, um die Leistung auf nachgeschalteten Aufgaben weiter zu verbessern. Unsere Experimente nutzten sowohl ein selbstüberwachtes SFM, WavLM, als auch ein überwachtes SFM, iFLYTEK-speech. Die Ergebnisse zeigten, dass unser vorgeschlagenes Verfahren gegenüber vorherigen state-of-the-art-Baselines entweder überlegene oder zumindest vergleichbare Leistung bei Aufgaben der automatischen Spracherkennung, visuellen Spracherkennung und audio-visuellen Spracherkennung erzielt. Zusätzlich wurden umfassende Ablationsstudien sowie die Visualisierung der gelernten Repräsentationen durchgeführt, um die Wirksamkeit unseres Ansatzes zu evaluieren.