Interpretierbare 3D-Analyse menschlicher Bewegungen mit zeitlichen Faltungsnetzwerken

Die diskriminative Leistungsfähigkeit moderner Deep-Learning-Modelle für die 3D-Aktionserkennung von Menschen nimmt stetig zu. In Verbindung mit der jüngsten Wiederbelebung der 3D-Darstellung menschlicher Aktionen durch Skelette haben Qualität und Tempo des Fortschritts in letzter Zeit erheblich zugenommen. Dennoch bleiben die internen Abläufe der neuesten lernbasierten Methoden in der 3D-Aktionserkennung weitgehend ein Black-Box-Szenario. In dieser Arbeit schlagen wir vor, eine neue Klasse von Modellen, bekannt als Temporale Faltungsneuronale Netze (TCN), für die 3D-Aktionserkennung von Menschen zu verwenden. Im Vergleich zu den beliebten LSTM-basierten rekurrenten neuronalen Netzwerken (RNN) bieten TCN bei verständlichen Eingaben wie 3D-Skeletten einen Weg, um explizit leicht verständliche räumlich-zeitliche Darstellungen für die 3D-Aktionserkennung zu erlernen. Wir präsentieren unsere Strategie zur Neugestaltung des TCN unter Berücksichtigung der Interpretierbarkeit und zeigen, wie diese Eigenschaften des Modells genutzt werden, um eine leistungsstarke Methode zur 3D-Aktivitätserkennung zu entwickeln. Mit dieser Arbeit möchten wir einen Schritt in Richtung eines räumlich-zeitlichen Modells tun, das einfacher zu verstehen, zu erklären und zu interpretieren ist. Das resultierende Modell, Res-TCN, erreicht auf dem größten Datensatz für die 3D-Aktionserkennung von Menschen, NTU-RGBD, Stand der Technik ergebende Resultate.