vor einem Monat

Die Leistungsfähigkeit der unimodalen dynamischen Handgestenerkennung durch multimodales Training verbessern

Mahdi Abavisani; Hamid Reza Vaezi Joze; Vishal M. Patel

Abstract

Wir präsentieren einen effizienten Ansatz zur Nutzung des Wissens aus mehreren Modalitäten beim Training von unimodalen 3D-Faltungsneuralnetzen (3D-CNNs) für die Aufgabe der dynamischen Handgestenerkennung. Anstatt multimodale Informationen explizit zu kombinieren, was in vielen modernsten Methoden üblich ist, schlagen wir ein anderes Framework vor, in dem das Wissen aus mehreren Modalitäten in einzelnen Netzen eingebettet wird, sodass jedes unimodale Netzwerk eine verbesserte Leistung erzielen kann. Insbesondere weisen wir für jede verfügbare Modalität getrennte Netzwerke zu und zwingen diese zusammenzuarbeiten und gemeinsame Semantiken und bessere Darstellungen zu erlernen. Wir führen einen „raumzeitlichen semantischen Ausrichtungsverlust“ (SSA) ein, um den Inhalt der Merkmale aus verschiedenen Netzwerken auszurichten. Zudem regularisieren wir diesen Verlust mit unserem vorgeschlagenen „fokalen Regularisierungsparameter“, um eine negative Wissensübertragung zu vermeiden. Experimentelle Ergebnisse zeigen, dass unser Framework die Erkennungsgenauigkeit von unimodalen Netzwerken bei Testläufen verbessert und den Stand der Technik auf verschiedenen Datensätzen für dynamische Handgestenerkennung bietet.