HyperAIHyperAI
vor 2 Monaten

Lip Reading auf UnterwortsEbene mit visueller Aufmerksamkeit

Prajwal, K R ; Afouras, Triantafyllos ; Zisserman, Andrew
Lip Reading auf UnterwortsEbene mit visueller Aufmerksamkeit
Abstract

Das Ziel dieser Arbeit ist es, robuste Lippenlesemodelle zu entwickeln, die in stummen Videos Sprache erkennen können. Die meisten bisherigen Arbeiten behandeln das Problem der offenen Menge bei visueller Spracherkennung, indem sie vorhandene automatische Spracherkennungstechniken auf einfach aggregierte visuelle Merkmale anwenden. Im Gegensatz dazu konzentrieren wir uns in dieser Arbeit auf die einzigartigen Herausforderungen des Lippenlesens und schlagen maßgeschneiderte Lösungen vor. Zu diesem Zweck leisten wir folgende Beiträge:(1) Wir schlagen einen aufmerksamkeitsbasierten Pooling-Mechanismus vor, um visuelle Sprachrepräsentationen zusammenzufassen;(2) Wir verwenden Sub-Wort-Einheiten für das Lippenlesen zum ersten Mal und zeigen, dass dies uns ermöglicht, die Ambiguitäten der Aufgabe besser zu modellieren;(3) Wir schlagen ein Modell für die Visuelle Spracherkennung (Visual Speech Detection, VSD) vor, das auf dem Lippenlesnetzwerk trainiert wird.Dadurch erzielen wir Stand-der-Technik-Ergebnisse bei den anspruchsvollen Benchmarks LRS2 und LRS3, wenn wir öffentliche Datensätze verwenden. Mit einem Bruchteil der Datenmenge übertreffen wir sogar Modelle, die auf großen industriellen Datensätzen trainiert wurden. Unser bestes Modell erreicht eine Wörterfehlerquote von 22,6 % beim LRS2-Datensatz, eine Leistung, die für Lippenlesemodelle bisher unbekannt war und den Leistungsunterschied zwischen Lippenlesen und automatischer Spracherkennung erheblich verringert. Darüber hinaus übertrifft unser VSD-Modell alle rein visuellen Baseline-Methoden beim AVA-ActiveSpeaker-Benchmark und überzeugt sogar einige aktuelle audiovisuelle Methoden.