Dynamic GCN: kontextbereicherte Topologie-Lernverfahren für die Aktionserkennung basierend auf Skelettdaten

Graph Convolutional Networks (GCNs) haben zunehmend Interesse für die Aufgabe der aktionsbasierten Erkennung anhand von Skelettdaten hervorgerufen. Der Schlüssel hierbei liegt in der Gestaltung der Graphstruktur, welche Informationen über die Skeletttopologie kodiert. In diesem Artikel stellen wir Dynamic GCN vor, bei dem ein neuartiges convolutionales neuronales Netzwerk namens Context-Encoding Network (CeN) eingeführt wird, um die Skeletttopologie automatisch zu lernen. Insbesondere werden bei der Modellierung der Abhängigkeit zwischen zwei Gelenken kontextuelle Merkmale aus den verbleibenden Gelenken global berücksichtigt. CeN ist äußerst leichtgewichtig, dennoch hochwirksam und kann nahtlos in eine graphische Faltungs-Schicht integriert werden. Durch Stapeln mehrerer CeN-erweiterter graphischer Faltungs-Schichten konstruieren wir Dynamic GCN. Besonders hervorzuheben ist, dass CeN es ermöglicht, dynamische Graphtopologien sowohl für unterschiedliche Eingabeproben als auch für graphische Faltungs-Schichten verschiedener Tiefe zu generieren. Darüber hinaus werden drei alternative Architekturen zur Kontextmodellierung gründlich untersucht, die als Leitfaden für zukünftige Forschung im Bereich der Graph-Topologie-Lernung dienen können. CeN verursacht lediglich etwa 7 % zusätzliche FLOPs im Vergleich zum Basismodell, während Dynamic GCN eine bessere Leistung erzielt und dabei 2× bis 4× weniger FLOPs als bestehende Methoden benötigt. Durch die weitere Kombination statischer physischer Körperverbindungen mit Bewegungsmodalitäten erreichen wir state-of-the-art Ergebnisse auf drei großen Benchmarks: NTU-RGB+D, NTU-RGB+D 120 und Skeleton-Kinetics.