Kanalweise Topologie-Verfeinerung Graph-Convolution für actionsbasierte Aktenerkennung auf Basis von Skeletten

Graphen-Convolutional Networks (GCNs) werden weithin eingesetzt und erzielen bemerkenswerte Ergebnisse bei der Aktionserkennung auf Basis von Skelettdaten. In GCNs dominiert die Graphentopologie die Merkmalsaggregation und ist somit entscheidend für die Extraktion repräsentativer Merkmale. In dieser Arbeit stellen wir einen neuen Ansatz namens Channel-wise Topology Refinement Graph Convolution (CTR-GC) vor, der dynamisch unterschiedliche Topologien lernt und joint-Features effektiv über verschiedene Kanäle hinweg aggregiert, um die Aktionserkennung auf Basis von Skelettdaten zu verbessern. Der vorgeschlagene CTR-GC modelliert kanalweise Topologien, indem er zunächst eine gemeinsame Topologie als generisches Vorwissen für alle Kanäle lernt und diese anschließend anhand kanalspezifischer Korrelationen für jeden Kanal verfeinert. Unsere Verfeinerungsmethode führt nur wenige zusätzliche Parameter ein und reduziert erheblich die Komplexität der Modellierung kanalweiser Topologien. Darüber hinaus zeigen wir durch eine Umformulierung der Graphen-Convolutionen in eine einheitliche Darstellung, dass CTR-GC strikte Einschränkungen der herkömmlichen Graphen-Convolutionen lockert und dadurch eine stärkere Repräsentationsfähigkeit erzielt. Durch die Kombination von CTR-GC mit zeitlichen Modellierungsmodulen entwickeln wir ein leistungsstarkes Graphen-Convolutional Network namens CTR-GCN, das auf den Datensätzen NTU RGB+D, NTU RGB+D 120 und NW-UCLA signifikant besser abschneidet als aktuelle State-of-the-Art-Methoden.