Aktionserkennung auf Basis von Skeletten durch zeitlich-kanalbasierte Aggregation

Methoden zur Aktionserkennung auf Basis von Skeletten sind durch die semantische Extraktion von raumzeitlichen Skelett-Karten begrenzt. Derzeitige Ansätze haben jedoch Schwierigkeiten, Merkmale aus beiden Dimensionen – zeitlich und räumlich – effektiv zu kombinieren und neigen dazu, in einer Dimension stark zu sein, während sie in der anderen nachlassen. In diesem Paper stellen wir Temporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN) vor, um raumliche und zeitliche Topologien dynamisch zu lernen und topologische Merkmale in verschiedenen zeitlichen und kanalbasierten Dimensionen effizient zu aggregieren, um die Aktionserkennung auf Basis von Skeletten zu verbessern. Wir nutzen das Temporal Aggregation-Modul, um zeitliche Merkmale zu lernen, und das Channel Aggregation-Modul, um räumliche dynamische, kanalweise topologische Merkmale effizient mit dynamischen zeitlichen Topologie-Merkmale zu kombinieren. Zudem extrahieren wir mehrskalige skelett-basierte Merkmale im zeitlichen Modellierungsprozess und fügen sie mittels eines Aufmerksamkeitsmechanismus zusammen. Umfangreiche Experimente zeigen, dass unser Modell sowohl auf den Datensätzen NTU RGB+D, NTU RGB+D 120 als auch NW-UCLA die Leistung von aktuellen State-of-the-Art-Methoden übertrifft.