Spatio-Temporales LSTM mit Vertrauensgattern für die 3D-Erkennung menschlicher Bewegungen

Die 3D-Aktenerkennung – die Analyse menschlicher Bewegungen auf Basis von 3D-Skelettdaten – gewinnt aufgrund ihrer Kürze, Robustheit und der unabhängig von der Sichtweise darstellbaren Eigenschaften zunehmend an Beliebtheit. Kürzliche Ansätze zu diesem Problem schlugen vor, lernende Methoden basierend auf Rekurrenten Neuronalen Netzen (RNN) zu entwickeln, um die kontextuelle Abhängigkeit im zeitlichen Bereich zu modellieren. In dieser Arbeit erweitern wir diese Idee auf den räumlich-zeitlichen Bereich, um die verborgenen Quellen aktionsbezogener Informationen in den Eingabedaten gleichzeitig in beiden Bereichen zu analysieren. Inspiriert durch die graphische Struktur des menschlichen Skeletts schlagen wir zudem eine leistungsfähigere, baumstrukturierte Durchlaufmethode vor. Um das Rauschen und die Verdeckung in 3D-Skelettdaten zu bewältigen, führen wir ein neues Gating-Mechanismus innerhalb des Long Short-Term Memory (LSTM)-Modells ein, um die Zuverlässigkeit der sequentiellen Eingabedaten zu lernen und entsprechend dessen Einfluss auf das Aktualisieren der langfristigen Kontextinformationen im Speicherzellen zu justieren. Unsere Methode erreicht den aktuellen Stand der Technik auf vier anspruchsvollen Benchmark-Datensätzen für die 3D-Analyse menschlicher Bewegungen.