HyperAIHyperAI

Command Palette

Search for a command to run...

Audio-Visual Representation Learning durch Knowledge Distillation aus Speech Foundation Models

Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling

Zusammenfassung

Die audio-visuelle Repräsentationslernung ist entscheidend für den Fortschritt multimodaler Sprachverarbeitungsaufgaben wie Lippenlesen und audio-visuelle Spracherkennung. In jüngster Zeit haben Sprachgrundmodelle (Speech Foundation Models, SFMs) bemerkenswerte Verallgemeinerungsfähigkeiten bei einer Vielzahl sprachbezogener Aufgaben gezeigt. Aufbauend auf diesen Fortschritten stellen wir ein audio-visuelles Repräsentationslernmodell vor, das auf der Kreuzmodalknowledge-Distillation aus SFMs basiert. In unserem Ansatz fungieren SFMs als Lehrer, aus denen mittels sauberer Audioeingaben mehrschichtige versteckte Repräsentationen extrahiert werden. Zudem führen wir eine Multi-Teacher-Ensemble-Methode ein, um das Schülermodell zu distillieren, das audio-visuelle Daten als Eingaben erhält. Eine neuartige Verfahrens- und Repräsentationswissen-Distillationsschwelle wird während der Vortrainingsphase verwendet, um das Schülermodell zu trainieren, und auch während des Fine-Tunings angewandt, um die Leistung auf nachgeschalteten Aufgaben weiter zu verbessern. Unsere Experimente nutzten sowohl ein selbstüberwachtes SFM, WavLM, als auch ein überwachtes SFM, iFLYTEK-speech. Die Ergebnisse zeigten, dass unser vorgeschlagenes Verfahren gegenüber vorherigen state-of-the-art-Baselines entweder überlegene oder zumindest vergleichbare Leistung bei Aufgaben der automatischen Spracherkennung, visuellen Spracherkennung und audio-visuellen Spracherkennung erzielt. Zusätzlich wurden umfassende Ablationsstudien sowie die Visualisierung der gelernten Repräsentationen durchgeführt, um die Wirksamkeit unseres Ansatzes zu evaluieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp