Command Palette
Search for a command to run...
Tiefgehende multimodale Merkmalsanalyse zur Aktenerkennung in RGB+D-Videos
Tiefgehende multimodale Merkmalsanalyse zur Aktenerkennung in RGB+D-Videos
Shahroudy Amir Ng Tian-Tsong Gong Yihong Wang Gang
Zusammenfassung
Die Anerkennung von Bewegungen anhand einer einzigen Modalität – sei es RGB-Bilder oder Tiefenfolgen – wurde in letzter Zeit umfassend erforscht. Allgemein wird angenommen, dass beide Modalitäten für die Aufgabe der Bewegungserkennung jeweils unterschiedliche Stärken und Einschränkungen aufweisen. Daher kann die Analyse von RGB+Tiefen-Videos dazu beitragen, die ergänzenden Eigenschaften dieser beiden Modalitäten besser zu verstehen und eine höhere Leistungsfähigkeit zu erreichen. In diesem Artikel stellen wir ein neuartiges tiefes Autoencoder-basiertes Netzwerk zur Faktorisierung gemeinsamer und spezifischer Merkmale vor, das Eingabesignale aus mehreren Modalitäten in eine hierarchische Struktur von Komponenten zerlegt. Auf Basis dieser Merkmalsstruktur wird zudem eine strukturierte Sparsitäts-Lernmaschine vorgeschlagen, die gemischte Normen nutzt, um Regularisierung innerhalb der Komponenten und Gruppenauswahl zwischen ihnen durchzuführen, um eine verbesserte Klassifizierungsleistung zu erzielen. Unsere experimentellen Ergebnisse belegen die Wirksamkeit unseres Frameworks zur Kreuzmodalitäts-Merkmalsanalyse, indem wir auf fünf anspruchsvollen Benchmark-Datensätzen die bisher besten Ergebnisse bei der Bewegungsklassifizierung erzielen.