HyperAIHyperAI

Command Palette

Search for a command to run...

ASR ist alles, was Sie brauchen: cross-modale Distillation für Lippenlesung

Triantafyllos Afouras Joon Son Chung Andrew Zisserman

Zusammenfassung

Das Ziel dieser Arbeit besteht darin, starke Modelle für die visuelle Spracherkennung zu trainieren, ohne dass menschlich annotierte Referenzdaten erforderlich sind. Dies erreichen wir durch das „Distillieren“ von einem automatischen Spracherkennungsmodell (ASR), das auf einer großen Audio-only-Korpus trainiert wurde. Wir verwenden eine cross-modale Distillation-Methode, die die Connectionist Temporal Classification (CTC) mit einer frame-weisen Cross-Entropy-Verlustfunktion kombiniert. Unsere Beiträge sind vielfältig: (i) Wir zeigen, dass menschlich annotierte Transkripte nicht notwendig sind, um ein Lippenlesesystem zu trainieren; (ii) Wir demonstrieren, wie beliebige Mengen an ungelabelten Videodaten genutzt werden können, um die Leistung zu verbessern; (iii) Wir belegen, dass die Distillation das Training erheblich beschleunigt; und (iv) Wir erzielen state-of-the-art-Ergebnisse auf den anspruchsvollen Datensätzen LRS2 und LRS3, wobei lediglich öffentlich verfügbare Daten verwendet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp