Command Palette
Search for a command to run...
Interpretierbare 3D-Analyse menschlicher Bewegungen mit zeitlichen Faltungsnetzwerken
Interpretierbare 3D-Analyse menschlicher Bewegungen mit zeitlichen Faltungsnetzwerken
Kim Tae Soo Reiter Austin
Zusammenfassung
Die Diskriminierungskraft moderner tiefgehender Lernmodelle für die 3D-Aktenerkennung menschlicher Bewegungen nimmt stetig zu. In Verbindung mit der jüngsten Wiederbelebung der 3D-Darstellung menschlicher Bewegungen mittels 3D-Skeletten hat die Qualität und Geschwindigkeit der Fortschritte in letzter Zeit erheblich zugenommen. Dennoch bleiben die inneren Abläufe state-of-the-art-Methoden basierend auf Lernansätzen in der 3D-Aktenerkennung weitgehend als „Black Box“ unerforscht. In dieser Arbeit schlagen wir vor, eine neue Klasse von Modellen – sogenannte Temporale Faltungsneuronale Netze (Temporal Convolutional Neural Networks, TCN) – für die 3D-Aktenerkennung menschlicher Bewegungen einzusetzen. Im Vergleich zu verbreiteten LSTM-basierten rekurrenten neuronalen Netzen ermöglicht TCN bei gegebenen interpretierbaren Eingaben, wie beispielsweise 3D-Skeletten, eine explizite Lernung leicht interpretierbarer räumlich-zeitlicher Darstellungen für die 3D-Aktenerkennung. Wir präsentieren unsere Strategie zur Neukonzeption des TCN mit Fokus auf Interpretierbarkeit und zeigen, wie diese Eigenschaften des Modells genutzt werden, um eine leistungsstarke Methode zur 3D-Aktenerkennung zu entwickeln. Ziel dieser Arbeit ist es, einen Schritt hin zu einem räumlich-zeitlichen Modell zu setzen, das leichter verständlich, erklärbar und interpretierbar ist. Das resultierende Modell, Res-TCN, erreicht state-of-the-art-Ergebnisse auf dem größten Datensatz für 3D-Aktenerkennung menschlicher Bewegungen, dem NTU-RGBD-Datensatz.