vor 10 Tagen

ASR ist alles, was Sie brauchen: cross-modale Distillation für Lippenlesung

Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman

Abstract

Das Ziel dieser Arbeit besteht darin, starke Modelle für die visuelle Spracherkennung zu trainieren, ohne dass menschlich annotierte Referenzdaten erforderlich sind. Dies erreichen wir durch das „Distillieren“ von einem automatischen Spracherkennungsmodell (ASR), das auf einer großen Audio-only-Korpus trainiert wurde. Wir verwenden eine cross-modale Distillation-Methode, die die Connectionist Temporal Classification (CTC) mit einer frame-weisen Cross-Entropy-Verlustfunktion kombiniert. Unsere Beiträge sind vielfältig: (i) Wir zeigen, dass menschlich annotierte Transkripte nicht notwendig sind, um ein Lippenlesesystem zu trainieren; (ii) Wir demonstrieren, wie beliebige Mengen an ungelabelten Videodaten genutzt werden können, um die Leistung zu verbessern; (iii) Wir belegen, dass die Distillation das Training erheblich beschleunigt; und (iv) Wir erzielen state-of-the-art-Ergebnisse auf den anspruchsvollen Datensätzen LRS2 und LRS3, wobei lediglich öffentlich verfügbare Daten verwendet werden.