Adaptives semantisches raumzeitliches Graph-Convolutional-Netzwerk für Lippenlesung
Das Ziel dieser Arbeit besteht darin, Wörter, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, ohne dass die zugehörige Audioinformation zur Verfügung steht. Aktuelle Ansätze der tiefen Lernens für Lippenlesung konzentrieren sich darauf, die Erscheinungsmerkmale und die optische Flussinformation von Videos zu erforschen. Diese Methoden nutzen jedoch die Eigenschaften der Lippenbewegung nicht vollständig aus. Neben Erscheinungsbild und optischem Fluss vermittelt die Verformung des Mundkontur normalerweise bedeutende, ergänzende Informationen. Die Modellierung der dynamischen Mundkontur hat jedoch im Vergleich zu Erscheinungsbild und optischem Fluss bisher wenig Aufmerksamkeit erhalten. In dieser Arbeit stellen wir ein neuartiges Modell zur dynamischen Mundkontur vor, namens Adaptive Semantic-Spatio-Temporal Graph Convolution Network (ASST-GCN), das über bisherige Methoden hinausgeht, indem es sowohl räumliche als auch zeitliche Informationen automatisch aus Videos lernt. Um die ergänzenden Informationen aus Erscheinungsbild und Mundkontur zu kombinieren, wird ein zweistrahliger visueller Front-End-Netzwerk vorgeschlagen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode die derzeit besten Lippenleseverfahren auf mehreren großen Lippenlesungsbenchmarks erheblich übertrifft.