HyperAIHyperAI
vor 3 Monaten

STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer für die aktionsbasierte Erkennung anhand von Skelettdaten

Nguyen Huu Bao Long
STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer für die aktionsbasierte Erkennung anhand von Skelettdaten
Abstract

Graphenbasierte Faltungsnetze (Graph Convolutional Networks, GCNs) werden weithin eingesetzt und haben in der aktionsbasierten Erkennung auf der Grundlage von Skelettdaten beachtliche Ergebnisse erzielt. Wir gehen davon aus, dass der Schlüssel zur Skelettbasierten Aktionserkennung darin liegt, dass ein Skelett über mehrere Frames hinweg erhalten bleibt. Daher konzentrieren wir uns darauf, wie Graph Convolutional Networks unterschiedliche Topologien lernen und Gelenkmerkmale effizient sowohl im globalen als auch im lokalen zeitlichen Verlauf aggregieren. In dieser Arbeit schlagen wir drei kanalweise Topologie-basierte Graphenfaltungsansätze vor, basierend auf dem kanalweisen Topologie-Refinements Graph Convolutional Network (CTR-GCN). Durch die Kombination von CTR-GCN mit zwei Gelenk-Überaufmerksamkeitsmodulen (joint cross-attention modules) können Beziehungen zwischen oberem und unterem Körper sowie zwischen Händen und Füßen im Skelett erfasst werden. Anschließend entwickeln wir die Temporal Attention Transformers, um Merkmale von sich im Laufe der Zeit verändernden menschlichen Skeletten effektiv zu erfassen. Diese Temporal Attention Transformers sind in der Lage, zeitliche Merkmale von Skelettsequenzen zu lernen. Schließlich fügen wir die ausgegebenen zeitlichen Merkmale mit einer mehrschichtigen linearen Einheit (MLP) zusammen und führen die Klassifikation durch. Wir entwickeln ein leistungsstarkes Graphenfaltungsnetzwerk namens Spatial Temporal Effective Body-part Cross Attention Transformer (STEP-CATFormer), das sich durch herausragende Leistung auf den Datensätzen NTU RGB+D und NTU RGB+D 120 auszeichnet. Der Quellcode und die Modelle sind unter https://github.com/maclong01/STEP-CATFormer verfügbar.