HyperAIHyperAI
vor 9 Tagen

Audio-Visual Speech and Gesture Recognition durch Sensoren mobiler Geräte

{Elena Ryumina, Denis Ivanko, Dmitry Ryumin}
Abstract

Die audio-visuelle Spracherkennung (AVSR) gilt als eine der vielversprechendsten Lösungen für eine zuverlässige Spracherkennung, insbesondere wenn die Audioquelle durch Rauschen beeinträchtigt ist. Zusätzliche visuelle Informationen können sowohl für die automatische Lippenlesung als auch für die Gestenerkennung genutzt werden. Handgesten stellen eine Form der nicht-verbalen Kommunikation dar und können als ein wesentlicher Bestandteil moderner Mensch-Computer-Interaktionssysteme dienen. Derzeit sind Audio- und Videodaten durch Sensoren mobiler Geräte leicht zugänglich. Es existiert jedoch derzeit keine aus der Schachtel kommende Lösung für die automatische audio-visuelle Sprach- und Gestenerkennung. Diese Studie stellt zwei architektonisch neuartige tief neuronale Netzwerkmodelle vor: eines für die AVSR und eines für die Gestenerkennung. Der zentrale Innovationsaspekt in der audio-visuellen Spracherkennung liegt in den vorgeschlagenen Feinabstimmungsstrategien sowohl für visuelle als auch akustische Merkmale sowie in dem neuartigen end-to-end-Modell, das drei Ansätze zur Modalitätsfusion berücksichtigt: Vorhersageebene, Merkmals- und Modell-Ebene. In der Gestenerkennung liegt die Hauptinnovation in einem einzigartigen Satz von raum-zeitlichen Merkmalen, die auch Informationen zur Lippenartikulation einbeziehen. Da keine verfügbaren Datensätze für die kombinierte Aufgabe existieren, haben wir unsere Methoden an zwei unterschiedlichen großen Korpora – LRW und AUTSL – evaluiert und dabei sowohl in der AVSR als auch in der Gestenerkennung die bestehenden Ansätze übertroffen. Für das LRW-Datenset erreichten wir eine AVSR-Genauigkeit von 98,76 %, für das AUTSL-Datenset eine Gestenerkennungsrate von 98,56 %. Die erzielten Ergebnisse belegen nicht nur die hohe Leistungsfähigkeit der vorgeschlagenen Methodik, sondern auch die grundsätzliche Möglichkeit, audio-visuelle Sprache und Gesten mittels Sensoren mobiler Geräte zu erkennen.