Teilbasiertes Graphenkonvolutionales Netzwerk für Aktionserkennung

Menschliche Handlungen bestehen aus der gemeinsamen Bewegung von Gliedmaßen oder „Gesten“. Der menschliche Skelett kann intuitiv als ein spärliches Graph dargestellt werden, bei dem die Gelenke als Knoten und die natürlichen Verbindungen zwischen ihnen als Kanten dienen. Graphkonvolutionale Netze wurden verwendet, um Handlungen aus skelettbasierten Videos zu erkennen. Wir stellen ein teilbasiertes graphkonvolutionales Netzwerk (PB-GCN) für diese Aufgabe vor, inspiriert von deformierbaren teilbasierten Modellen (DPMs). Wir teilen den Skelettgraph in vier Untergraphen auf, wobei einige Gelenke über mehrere Untergraphen hinweg geteilt werden, und lernen ein Erkennungsmodell unter Verwendung eines teilbasierten graphkonvolutionalen Netzwerks. Wir zeigen, dass dieses Modell die Erkennungsleistung im Vergleich zu einem Modell, das den gesamten Skelettgraph verwendet, verbessert. Anstatt 3D-Gelenkkoordinaten als Knotenmerkmale zu verwenden, demonstrieren wir, dass die Verwendung relativer Koordinaten und zeitlicher Verschiebungen die Leistung steigert. Unser Modell erzielt den aktuellen Stand der Technik auf zwei anspruchsvollen Benchmark-Datensätzen, NTURGB+D und HDM05, für die Erkennung von skelettbasierten Aktionen.