Zur Aktionserkennung auf Basis von Skelettdaten mittels Multilayer LSTM-Netzwerken: Geometrische Merkmale

RNN-basierte Ansätze haben hervorragende Leistungen bei der Aktionserkennung mit Skelett-Eingaben erzielt. Derzeit beschränken diese Methoden ihre Eingaben auf die Koordinaten von Gelenken und steigern die Genauigkeit hauptsächlich durch die Erweiterung von RNN-Modellen auf den räumlichen Bereich auf verschiedene Weise. Während solche Modelle Beziehungen zwischen verschiedenen Körperteilen direkt aus den Gelenkkoordinaten ableiten, stellen wir eine einfache, universelle räumliche Modellierungsmethode vor, die orthogonal zur Verbesserung von RNN-Modellen ist. Konkret wählen wir eine Reihe einfacher geometrischer Merkmale aus, die durch die Entwicklung früherer Arbeiten motiviert sind. In Experimenten mit einem dreischichtigen LSTM-Rahmen beobachten wir, dass geometrische Relationmerkmale, die auf den Abständen zwischen Gelenken und ausgewählten Linien basieren, andere Merkmale überlegen sind und auf vier Datensätzen Ergebnisse auf dem Stand der Technik erzielen. Zudem zeigen wir die Sparsamkeit der Eingabegewichte im ersten LSTM-Layer, der mit geometrischen Merkmalen trainiert wurde, und demonstrieren, dass die Verwendung von Gelenk-Linien-Abständen als Eingabe weniger Trainingsdaten erfordert.