HyperAIHyperAI

Command Palette

Search for a command to run...

Die Nutzung von unimodalem selbstüberwachtem Lernen für multimodale audiovisuelle Spracherkennung

Pan Xichen ; Chen Peiyu ; Gong Yichen ; Zhou Helong ; Wang Xinbing ; Lin Zhouhan

Zusammenfassung

Das Training von transformerbasierten Modellen erfordert eine große Menge an Daten, während das Erhalten von ausgerichteten und annotierten Daten in der Multimodalität recht kostenintensiv ist, insbesondere für die audiovisuelle Spracherkennung (AVSR). Daher ergibt es sich viel Sinn, unannotierte unimodale Daten zu nutzen. Auf der anderen Seite ist zwar die Effektivität des groß angelegten selbstüberwachten Lernens sowohl in der Audiomodalität als auch in der Visuamodalität gut belegt, jedoch bleibt die Frage, wie diese vortrainierten Modelle in ein multimodales Szenario integriert werden können, bisher unter erforscht. In dieser Arbeit gelingt es uns erfolgreich, unimodales selbstüberwachtes Lernen zu nutzen, um die multimodale AVSR zu fördern. Insbesondere werden Audio- und Video-Front-Ends auf großen unimodalen Datensätzen trainiert und danach werden Komponenten beider Front-Ends in einen größeren multimodalen Rahmen integriert, der durch eine Kombination von CTC- und seq2seq-Decoding lernt, parallele audiovisuelle Daten in Zeichen zu erkennen. Wir zeigen, dass beide Komponenten, die aus dem unimodalen selbstüberwachten Lernen stammen, gut zusammenarbeiten und dadurch das multimodale Framework durch Feinabstimmung wettbewerbsfähige Ergebnisse erzielt. Unser Modell wurde sowohl bei Wort- als auch bei Satzebene experimentell validiert. Besonders auffällig ist dabei, dass unser vorgeschlagenes Modell sogar ohne externes Sprachmodell die Standarte der Leistung auf dem weit verbreiteten Lip Reading Sentences 2 (LRS2)-Datensatz stark anhebt und eine relative Verbesserung von 30 % erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp