HyperAIHyperAI
vor 2 Monaten

SkateFormer: Skelettaler Transformer für die Erkennung menschlicher Aktionen

Do, Jeonghyeok ; Kim, Munchurl
SkateFormer: Skelettaler Transformer für die Erkennung menschlicher Aktionen
Abstract

Skelettbasierte Aktionserkennung, die menschliche Aktionen auf Grundlage der Koordinaten von Gelenken und ihrer Verbindungen innerhalb von Skelett-Daten klassifiziert, wird in verschiedenen Szenarien weit verbreitet eingesetzt. Obwohl Graph Convolutional Networks (GCNs) für Skelett-Daten, die als Graphen dargestellt werden, vorgeschlagen wurden, leiden sie unter begrenzten Rezeptionsfeldern, die durch die Gelenkverbindungen eingeschränkt sind. Um diese Einschränkung zu überwinden, haben jüngste Fortschritte transformerbasierte Methoden eingeführt. Allerdings erfordert das Erfassen von Korrelationen zwischen allen Gelenken in allen Bildern erhebliche Speicherressourcen. Um dies zu mildern, schlagen wir einen neuen Ansatz vor, den Skelettbasierten Temporalen Transformer (Skeletal-Temporal Transformer, SkateFormer), der Gelenke und Bilder basierend auf verschiedenen Arten von skelettbasierten temporalen Beziehungen (Skeletal-Temporal Relation Type, Skate-Type) segmentiert und innerhalb jeder Segmentierung skelettbasierte temporale Selbst-Attention (Skeletal-Temporal Self-Attention, Skate-MSA) durchführt. Wir kategorisieren die wesentlichen skelettbasierten temporalen Beziehungen für Aktionserkennung in insgesamt vier verschiedene Typen. Diese Typen kombinieren (i) zwei Arten von skelettbasierten Beziehungen basierend auf physisch benachbarten und entfernten Gelenken sowie (ii) zwei Arten von temporalen Beziehungen basierend auf benachbarten und entfernten Bildern. Durch diese segment-spezifische Aufmerksamkeitsstrategie kann unser SkateFormer selektiv auf die für die Aktionserkennung entscheidenden Gelenke und Bilder fokussieren und dies effizient berechnen. Ausführliche Experimente auf verschiedenen Benchmark-Datensätzen bestätigen, dass unser SkateFormer jüngste Stand-of-the-Art-Methoden übertrifft.