HyperAIHyperAI
vor 16 Tagen

Aufbau stärkerer und schnellerer Baselines für die aktionsbasierte Erkennung auf der Grundlage von Skeletten

Yi-Fan Song, Zhang Zhang, Caifeng Shan, Liang Wang
Aufbau stärkerer und schnellerer Baselines für die aktionsbasierte Erkennung auf der Grundlage von Skeletten
Abstract

Ein zentrales Problem bei der handgestützten Aktionserkennung besteht darin, diskriminative Merkmale über alle Gelenke des Skeletts zu extrahieren. Allerdings neigen die aktuellen State-of-the-Art (SOTA)-Modelle für diese Aufgabe aufgrund ihrer Komplexität zu einer übermäßigen Komplexität und Überparametrisierung. Die geringe Effizienz bei der Modelltrainings- und Inferenzphase hat die Validierungskosten von Modellarchitekturen auf großskaligen Datensätzen erhöht. Um dieses Problem anzugehen, werden kürzlich entwickelte separable Faltungsoperationen in ein frühes, mehrfach verzweigtes Netzwerk (Multiple Input Branches, MIB) integriert, um eine effiziente Graphenfaltungsnetzwerk-(GCN)-Basisarchitektur für die handgestützte Aktionserkennung zu konstruieren. Darüber hinaus entwickeln wir auf Basis dieser Basisarchitektur eine zusammengesetzte Skalierungsstrategie, um Breite und Tiefe des Modells synchron zu erweitern, und erhalten schließlich eine Familie effizienter GCN-Basen mit hoher Genauigkeit und geringer Anzahl an trainierbaren Parametern, die als EfficientGCN-Bx bezeichnet werden, wobei „x“ den Skalierungskoeffizienten angibt. Auf zwei großskaligen Datensätzen – NTU RGB+D 60 und 120 – übertrifft die vorgeschlagene EfficientGCN-B4-Basisarchitektur andere SOTA-Methoden: So erreicht sie beispielsweise eine Genauigkeit von 91,7 % auf dem Cross-Subject-Benchmark des NTU 60-Datensatzes, während sie gleichzeitig 3,15-mal kleiner und 3,21-mal schneller ist als MS-G3D, eine der besten SOTA-Methoden. Der Quellcode in der PyTorch-Version sowie die vortrainierten Modelle sind unter https://github.com/yfsong0709/EfficientGCNv1 verfügbar.