vor 2 Monaten

Die Nutzung von unimodalem selbstüberwachtem Lernen für multimodale audiovisuelle Spracherkennung

Pan, Xichen ; Chen, Peiyu ; Gong, Yichen ; Zhou, Helong ; Wang, Xinbing ; Lin, Zhouhan

Abstract

Das Training von transformerbasierten Modellen erfordert eine große Menge an Daten, während das Erhalten von ausgerichteten und annotierten Daten in der Multimodalität recht kostenintensiv ist, insbesondere für die audiovisuelle Spracherkennung (AVSR). Daher ergibt es sich viel Sinn, unannotierte unimodale Daten zu nutzen. Auf der anderen Seite ist zwar die Effektivität des groß angelegten selbstüberwachten Lernens sowohl in der Audiomodalität als auch in der Visuamodalität gut belegt, jedoch bleibt die Frage, wie diese vortrainierten Modelle in ein multimodales Szenario integriert werden können, bisher unter erforscht. In dieser Arbeit gelingt es uns erfolgreich, unimodales selbstüberwachtes Lernen zu nutzen, um die multimodale AVSR zu fördern. Insbesondere werden Audio- und Video-Front-Ends auf großen unimodalen Datensätzen trainiert und danach werden Komponenten beider Front-Ends in einen größeren multimodalen Rahmen integriert, der durch eine Kombination von CTC- und seq2seq-Decoding lernt, parallele audiovisuelle Daten in Zeichen zu erkennen. Wir zeigen, dass beide Komponenten, die aus dem unimodalen selbstüberwachten Lernen stammen, gut zusammenarbeiten und dadurch das multimodale Framework durch Feinabstimmung wettbewerbsfähige Ergebnisse erzielt. Unser Modell wurde sowohl bei Wort- als auch bei Satzebene experimentell validiert. Besonders auffällig ist dabei, dass unser vorgeschlagenes Modell sogar ohne externes Sprachmodell die Standarte der Leistung auf dem weit verbreiteten Lip Reading Sentences 2 (LRS2)-Datensatz stark anhebt und eine relative Verbesserung von 30 % erreicht.