HyperAIHyperAI

Command Palette

Search for a command to run...

Ein weiterer Blickwinkel auf die visuelle Spracherkennung

Frederic Precioso Charles Bouveyron Giacomo Valenti Laurent Pilati Baptiste Pouthier

Zusammenfassung

Standardmäßige visuelle Spracherkennungssysteme (Visual Speech Recognition, VSR) verarbeiten Bilder direkt als Eingabedaten ohne jegliche vorherige Beziehung zwischen den rohen Pixelwerten und facialen Merkmalen. Bei der Extraktion von Gesichtslandmarken aus Bildern wird die Pixelinformation gezielt gefiltert und die ermittelten Punkte als Knoten in einem Graphen verwendet. Die zeitliche Entwicklung dieser Punkte wird somit mittels eines Graphen-Convolutional Networks (GCN) modelliert. Da die graphenbasierte VSR-Technik jedoch noch in ihren Anfängen steckt, sind die Auswahl der Punkte sowie deren Korrelationen weiterhin unklar definiert und oft an vorherige Kenntnisse und handgebaute Methoden gebunden. In diesem Paper untersuchen wir den graphenbasierten Ansatz für die VSR und seine Fähigkeit, Beziehungen zwischen Punkten jenseits des Mundbereichs zu lernen. Zudem analysieren wir die jeweiligen Beiträge jeder Gesichtsregion zur Gesamtleistung des Systems und zeigen, dass sich durch streuere, jedoch besser verbundene Graphen sowohl eine geringe Rechenlast als auch hohe Genauigkeit erreichen lässt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp