Aktionserkennung auf Basis von Skeletten mit gerichteten Graphen neuronalen Netzwerken

Die Skelett-Daten werden seit langem für Aufgaben der Aktionserkennung eingesetzt, da sie robust gegenüber dynamischen Bedingungen und komplexen Hintergründen sind. In bestehenden Methoden hat sich gezeigt, dass sowohl die Gelenk- als auch die Knocheninformationen in den Skelett-Daten für die Aktionserkennung von großem Nutzen sind. Allerdings bleibt die Frage offen, wie diese beiden Datentypen am besten integriert werden können, um die Beziehung zwischen Gelenken und Knochen optimal auszunutzen. In dieser Arbeit stellen wir die Skelett-Daten basierend auf der kinematischen Abhängigkeit zwischen Gelenken und Knochen im menschlichen Körper als gerichteten azyklischen Graphen dar. Es wird ein neuartiges gerichtetes Graphen-Neuronales Netzwerk speziell entworfen, um sowohl Gelenk- und Knocheninformationen als auch deren Beziehungen zu extrahieren und auf Basis der gewonnenen Merkmale Vorhersagen zu treffen. Zudem wird die topologische Struktur des Graphen während des Trainingsprozesses adaptiv angepasst, um die Aufgabe der Aktionserkennung besser zu unterstützen, was zu einer signifikanten Leistungssteigerung führt. Darüber hinaus wird die Bewegungsinformation der Skelett-Sequenz ausgenutzt und in einem zwei-Stream-Framework mit der räumlichen Information kombiniert, um die Gesamtleistung weiter zu verbessern. Unser endgültiges Modell wird auf zwei großen Datensätzen, NTU-RGBD und Skeleton-Kinetics, getestet und erreicht auf beiden Datensätzen eine Leistung, die die aktuell besten Ergebnisse übertrifft.