Fusions von Infrarot- und 3D-Skelettmerkmalen für die RGB-D-Aktionserkennung

Eine Herausforderung bei der Aktionserkennung auf Basis von Skelettdaten liegt in der Schwierigkeit, Aktionen mit ähnlichen Bewegungsabläufen sowie objektbezogene Aktionen zu klassifizieren. Visuelle Hinweise aus anderen Datenströmen können hierbei hilfreich sein. RGB-Daten sind empfindlich gegenüber Beleuchtungsbedingungen und daher im Dunkeln nicht nutzbar. Um dieses Problem zu mildern und dennoch von einem visuellen Datenstrom zu profitieren, schlagen wir ein modulares Netzwerk (FUSION) vor, das Skelett- und Infrarotdaten kombiniert. Als Pose-Modul wird ein 2D-Convolutional Neural Network (CNN) verwendet, um Merkmale aus den Skelett-Daten zu extrahieren. Als Infrarot-Modul dient ein 3D-CNN, um visuelle Hinweise aus Videos zu gewinnen. Die beiden Merkmalsvektoren werden anschließend zusammengefügt und gemeinsam mittels eines Multilayer Perceptrons (MLP) ausgewertet. Zudem beeinflussen die Skelett-Daten die Infrarot-Videos, indem sie eine regionale Ausschnitts-Ausgabe um die ausführenden Personen generieren und somit die Aufmerksamkeit des Infrarot-Moduls quasi fokussieren. Ablationsstudien zeigen, dass die Verwendung vortrainierter Netzwerke auf anderen großen Datensätzen als Module sowie Daten-Augmentation zu erheblichen Verbesserungen der Klassifizierungsgenauigkeit führen. Auch die starke Wirkung unserer Ausschnittstrategie wird nachgewiesen. Wir evaluieren unsere Methode auf dem NTU RGB+D-Datensatz, dem umfangreichsten Datensatz für die Aktionserkennung aus Tiefenkameras, und erreichen dabei state-of-the-art-Leistungen.