Action Capsules: Anerkennung menschlicher Skelettaktionen

Aufgrund der kompakten und reichhaltigen hochwertigen Darstellungen haben skelettbasierte Ansätze zur menschlichen Aktenerkennung in letzter Zeit zu einem besonders aktiven Forschungsthema geworden. Frühere Studien haben gezeigt, dass die Untersuchung der Beziehungen zwischen Gelenken in räumlicher und zeitlicher Dimension effektive Informationen liefert, die für die Aktenerkennung entscheidend sind. Die effektive Kodierung globaler Abhängigkeiten zwischen Gelenken während der extrahierten räumlich-zeitlichen Merkmale bleibt jedoch weiterhin eine Herausforderung. In diesem Artikel stellen wir Action Capsule vor, das handlungsrelevante Schlüsselgelenke identifiziert, indem es die latente Korrelation zwischen Gelenken in einer Skelettsequenz berücksichtigt. Wir zeigen, dass unser end-to-end-Netzwerk während der Inferenz eine spezifische Menge an Gelenken für jede einzelne Aktion berücksichtigt, deren kodiertes räumlich-zeitliches Merkmal aggregiert wird, um die Aktion zu erkennen. Zudem verbessert die Verwendung mehrerer Stufen von Action Capsules die Fähigkeit des Netzwerks, ähnliche Aktionen zu klassifizieren. Infolgedessen übertrifft unser Netzwerk die Stand der Technik auf dem N-UCLA-Datensatz und erzielt wettbewerbsfähige Ergebnisse auf dem NTURGBD-Datensatz. Gleichzeitig weist unsere Methode aufgrund der GFLOPs-Messungen deutlich geringere Rechenanforderungen auf.