HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptives semantisches raumzeitliches Graph-Convolutional-Netzwerk für Lippenlesung

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

Zusammenfassung

Das Ziel dieser Arbeit besteht darin, Wörter, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, ohne dass die zugehörige Audioinformation zur Verfügung steht. Aktuelle Ansätze der tiefen Lernens für Lippenlesung konzentrieren sich darauf, die Erscheinungsmerkmale und die optische Flussinformation von Videos zu erforschen. Diese Methoden nutzen jedoch die Eigenschaften der Lippenbewegung nicht vollständig aus. Neben Erscheinungsbild und optischem Fluss vermittelt die Verformung des Mundkontur normalerweise bedeutende, ergänzende Informationen. Die Modellierung der dynamischen Mundkontur hat jedoch im Vergleich zu Erscheinungsbild und optischem Fluss bisher wenig Aufmerksamkeit erhalten. In dieser Arbeit stellen wir ein neuartiges Modell zur dynamischen Mundkontur vor, namens Adaptive Semantic-Spatio-Temporal Graph Convolution Network (ASST-GCN), das über bisherige Methoden hinausgeht, indem es sowohl räumliche als auch zeitliche Informationen automatisch aus Videos lernt. Um die ergänzenden Informationen aus Erscheinungsbild und Mundkontur zu kombinieren, wird ein zweistrahliger visueller Front-End-Netzwerk vorgeschlagen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode die derzeit besten Lippenleseverfahren auf mehreren großen Lippenlesungsbenchmarks erheblich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp