Graph-Contrastive-Lernen für aktionsbasierte Anerkennung auf der Grundlage von Skeletten

In der Forschung zu actionsbasierten Erkennung auf Basis von Skelett-Daten nutzen aktuell führende graphenbasierte Faltungsnetze (Graph Convolutional Networks, GCNs) intra-sequentielle Kontextinformationen, um adaptive Graphen für die Merkmalsaggregation zu konstruieren. Wir argumentieren jedoch, dass dieser Kontext weiterhin \textit{lokal} ist, da die reichhaltigen cross-sequentiellen Beziehungen bisher nicht explizit untersucht wurden. In diesem Artikel stellen wir einen graphenbasierten Kontrastlernrahmen für die actionsbasierte Erkennung auf Basis von Skelett-Daten (\textit{SkeletonGCL}) vor, um den \textit{globalen} Kontext über alle Sequenzen hinweg zu erforschen. Genauer gesagt verbindet SkeletonGCL die Graphenlernprozesse über verschiedene Sequenzen hinweg, indem es vorschreibt, dass die Graphen klassendifferenzierend sein sollen, d. h. innerhalb der Klasse kompakt und zwischen den Klassen getrennt, was die Fähigkeit des GCNs zur Unterscheidung verschiedener Aktionsmuster verbessert. Zudem werden zwei Speicherbanken entworfen, um den cross-sequentiellen Kontext auf zwei ergänzenden Ebenen – der Instanz- und der semantischen Ebene – zu bereichern, wodurch eine kontrastive Graphenlernung auf mehreren Kontextskalen ermöglicht wird. Infolgedessen etabliert SkeletonGCL ein neues Trainingsparadigma, das nahtlos in bestehende GCNs integriert werden kann. Ohne Beschränkung der Allgemeingültigkeit kombinieren wir SkeletonGCL mit drei verschiedenen GCNs (2S-ACGN, CTR-GCN und InfoGCN) und erzielen konsistente Verbesserungen auf den Benchmarks NTU60, NTU120 und NW-UCLA. Der Quellcode wird unter \url{https://github.com/OliverHxh/SkeletonGCL} verfügbar sein.