Deformationsflussbasiertes Zweistromnetzwerk für Lippenlesen

Lip-Reading ist die Aufgabe, den Sprachinhalt durch die Analyse der Bewegungen im Lippenbereich während des Sprechens zu erkennen. Unter Berücksichtigung der Kontinuität in aufeinanderfolgenden Bildern während des Sprechens sowie der Konsistenz der Bewegungsmuster verschiedener Sprecher bei der Aussprache derselben Phoneme modellieren wir die Lippenbewegungen während des Sprechens als eine Folge scheinbarer Verzerrungen im Lippenbereich. Konkret führen wir ein Deformation Flow Network (DFN) ein, das den Verformungsfluss zwischen aufeinanderfolgenden Bildern lernt und somit direkt die Bewegungsinformationen innerhalb des Lippenbereichs erfasst. Der gelernte Verformungsfluss wird anschließend zusammen mit den ursprünglichen Grauwertbildern in einem Zweistrom-Netzwerk zur Lippenlesung verwendet. Im Gegensatz zu früheren Zweistrom-Netzwerken ermöglichen wir im Lernprozess einen gegenseitigen Austausch der Informationen zwischen den beiden Strömen, indem wir eine bidirektionale Knowledge-Distillation-Verlustfunktion einführen, um die beiden Zweige gemeinsam zu trainieren. Aufgrund der ergänzenden Hinweise, die von den beiden Strömen bereitgestellt werden, zeigt das Zweistrom-Netzwerk eine erhebliche Verbesserung gegenüber der Verwendung einzelner Ströme. Eine umfassende experimentelle Bewertung auf zwei großen Lippenlesungsbenchmarks mit detaillierter Analyse wird präsentiert. Die Ergebnisse bestätigen unsere Motivation und zeigen, dass unsere Methode auf diesen beiden anspruchsvollen Datensätzen eine state-of-the-art- oder vergleichbare Leistung erzielt.