Command Palette
Search for a command to run...
Aktionserkennung basierend auf Skeletten mit mehrströmigen adaptiven graphbasierten Faltungsnetzwerken
Aktionserkennung basierend auf Skeletten mit mehrströmigen adaptiven graphbasierten Faltungsnetzwerken
Lei Shi Yifan Zhang Jian Cheng Hanqing Lu
Zusammenfassung
Graphen-Convolutional Networks (GCNs), die CNNs auf allgemeinere, nicht-euklidische Strukturen verallgemeinern, haben bei der aktionsbasierten Erkennung auf Basis von Skelett-Daten beachtliche Leistungen erzielt. Dennoch bestehen in den bisherigen GCN-basierten Modellen mehrere Probleme. Erstens wird die Topologie des Graphen heuristisch festgelegt und bleibt über alle Modellschichten und Eingabedaten konstant. Dies kann für die Hierarchie des GCN-Modells und die Vielfalt der Daten in Aktionserkennungsaufgaben nicht optimal sein. Zweitens wird die zweite Ordnungsinformation der Skelett-Daten – also die Länge und Orientierung der Knochen – selten berücksichtigt, obwohl sie naturgemäß informativer und diskriminativer für die Erkennung menschlicher Aktionen ist. In dieser Arbeit stellen wir ein neuartiges, mehrstrahliges, aufmerksamkeitsverstärktes adaptives Graphen-Convolutional Neural Network (MS-AAGCN) für die aktionsbasierte Erkennung auf Basis von Skelett-Daten vor. In unserem Modell kann die Graphentopologie entweder gleichmäßig oder individuell basierend auf den Eingabedaten end-to-end gelernt werden. Dieser datengetriebene Ansatz erhöht die Flexibilität des Modells bei der Graphenkonstruktion und verleiht ihm eine höhere Allgemeingültigkeit, um sich an verschiedene Datensample anzupassen. Zudem wird die vorgeschlagene adaptive Graphen-Convolutional-Schicht durch ein räumlich-zeitlich-kanalbasiertes Aufmerksamkeitsmodul weiter verbessert, das dem Modell hilft, verstärkt auf wichtige Gelenke, Frames und Merkmale zu achten. Außerdem werden in einem mehrstrahligen Rahmen sowohl die Informationen der Gelenke als auch der Knochen sowie deren Bewegungsinformationen gleichzeitig modelliert, was eine bemerkenswerte Steigerung der Erkennungsgenauigkeit ermöglicht. Umfangreiche Experimente auf zwei großen Datensätzen, NTU-RGBD und Kinetics-Skeleton, zeigen, dass die Leistung unseres Modells die der aktuellen State-of-the-Art-Methoden signifikant übertrifft.