HyperAIHyperAI
vor 12 Tagen

Ein weiterer Blickwinkel auf die visuelle Spracherkennung

{Frederic Precioso, Charles Bouveyron, Giacomo Valenti, Laurent Pilati, Baptiste Pouthier}
Ein weiterer Blickwinkel auf die visuelle Spracherkennung
Abstract

Standardmäßige visuelle Spracherkennungssysteme (Visual Speech Recognition, VSR) verarbeiten Bilder direkt als Eingabedaten ohne jegliche vorherige Beziehung zwischen den rohen Pixelwerten und facialen Merkmalen. Bei der Extraktion von Gesichtslandmarken aus Bildern wird die Pixelinformation gezielt gefiltert und die ermittelten Punkte als Knoten in einem Graphen verwendet. Die zeitliche Entwicklung dieser Punkte wird somit mittels eines Graphen-Convolutional Networks (GCN) modelliert. Da die graphenbasierte VSR-Technik jedoch noch in ihren Anfängen steckt, sind die Auswahl der Punkte sowie deren Korrelationen weiterhin unklar definiert und oft an vorherige Kenntnisse und handgebaute Methoden gebunden. In diesem Paper untersuchen wir den graphenbasierten Ansatz für die VSR und seine Fähigkeit, Beziehungen zwischen Punkten jenseits des Mundbereichs zu lernen. Zudem analysieren wir die jeweiligen Beiträge jeder Gesichtsregion zur Gesamtleistung des Systems und zeigen, dass sich durch streuere, jedoch besser verbundene Graphen sowohl eine geringe Rechenlast als auch hohe Genauigkeit erreichen lässt.

Ein weiterer Blickwinkel auf die visuelle Spracherkennung | Neueste Forschungsarbeiten | HyperAI