Tiefe multimodale Merkmalsanalyse für die Aktionserkennung in RGB+D-Videos

Die Erkennung von Aktionen in mono-modalen RGB- oder Tiefenbildsequenzen wurde in letzter Zeit intensiv erforscht. Es wird allgemein anerkannt, dass jede dieser beiden Modalitäten für die Aufgabe der Aktionserkennung unterschiedliche Stärken und Schwächen aufweist. Daher kann die Analyse von RGB+D-Videos uns helfen, die komplementären Eigenschaften dieser beiden Modalitätstypen besser zu untersuchen und höhere Leistungsniveaus zu erreichen. In diesem Artikel schlagen wir ein neues tiefes Autoencoder-basiertes Netzwerk zur geteilten-spezifischen Merkmalsfaktorisierung vor, das Eingangssignale aus mehreren Modalitäten in eine Hierarchie von Komponenten zerlegt. Darüber hinaus wird auf Basis der Merkmalsstruktur eine strukturierte Sparsitäts-Lernmaschine vorgeschlagen, die gemischte Normen verwendet, um innerhalb der Komponenten Regularisierung und zwischen ihnen Gruppenauswahl durchzuführen, um bessere Klassifikationsleistungen zu erzielen. Unsere experimentellen Ergebnisse zeigen die Effektivität unseres cross-modalen Merkmalsanalyseframeworks durch den Erreichen des Standes der Technik in Bezug auf die Genauigkeit der Aktionserkennung auf fünf anspruchsvollen Benchmark-Datensätzen.