Aktionserkennung auf Basis von Skelettdaten mittels räumlicher und zeitlicher Transformer-Netzwerke

Die Aktivitätsklassifikation auf Basis von Skelett-Daten hat in den letzten Jahren erhebliches Interesse geweckt, da Skelett-Daten sich als robust gegenüber Lichtverhältnisänderungen, Körpergrößenvariationen, dynamischen Kameraperspektiven und komplexen Hintergründen erwiesen haben. Insbesondere haben räumlich-zeitliche Graph-Convolutional Netzwerke (Spatial-Temporal Graph Convolutional Networks, ST-GCN) ihre Wirksamkeit bei der Erfassung sowohl räumlicher als auch zeitlicher Abhängigkeiten auf nicht-euklidischen Daten wie Skelett-Graphen demonstriert. Dennoch bleibt die effektive Kodierung der zugrundeliegenden latenten Information in 3D-Skelett-Daten weiterhin eine offene Herausforderung, insbesondere hinsichtlich der Extraktion von aussagekräftigen Informationen aus Gelenkbewegungsmustern und deren Korrelationen. In dieser Arbeit präsentieren wir ein neuartiges räumlich-zeitliches Transformer-Netzwerk (ST-TR), das Abhängigkeiten zwischen Gelenken mittels des Transformer-Self-Attention-Operators modelliert. In unserem ST-TR-Modell wird ein räumliches Self-Attention-Modul (SSA) eingesetzt, um Interaktionen innerhalb eines Rahmens zwischen verschiedenen Körperteilen zu erfassen, sowie ein zeitliches Self-Attention-Modul (TSA), um Korrelationen zwischen aufeinanderfolgenden Bildern zu modellieren. Beide Module werden in einem zweistromigen Netzwerk integriert, dessen Leistung an drei großen Datensätzen, NTU-RGB+D 60, NTU-RGB+D 120 und Kinetics Skeleton 400, evaluiert wurde. Die Ergebnisse zeigen konsistent verbesserte Leistungen gegenüber den Basisarchitekturen. Im Vergleich zu Methoden, die dieselben Eingabedaten verwenden, erreicht das vorgeschlagene ST-TR-Modell auf allen Datensätzen state-of-the-art-Leistung, wenn ausschließlich Gelenkkordinaten als Eingabe verwendet werden, und erzielt Ergebnisse, die mit dem Stand der Technik vergleichbar sind, wenn zusätzlich Knochendaten berücksichtigt werden.