Command Palette
Search for a command to run...
Nichtlokale Graphen-Convolutional Networks für die aktionsbasierte Erkennung anhand von Skelettdaten
Nichtlokale Graphen-Convolutional Networks für die aktionsbasierte Erkennung anhand von Skelettdaten
Hanqing Lu Jian Cheng Yifan Zhang Lei Shi
Zusammenfassung
Traditionelle tiefe Methoden zur aktionsbasierten Erkennung auf der Grundlage von Skeletten strukturieren das Skelett üblicherweise als Koordinatenfolge oder als Pseudobild, um es RNNs oder CNNs zuzuführen. Diese Ansätze können die natürliche Verbindung zwischen den Gelenken jedoch nicht explizit ausnutzen. In jüngster Zeit haben Graphen-Convolutional Networks (GCNs), die CNNs auf allgemeinere, nicht-euklidische Strukturen verallgemeinern, beachtliche Ergebnisse bei der aktionsbasierten Erkennung auf der Grundlage von Skeletten erzielt. Allerdings wird die Topologie des Graphen manuell festgelegt und über alle Schichten hinweg fixiert, was möglicherweise nicht optimal für die Aufgabe der Aktionserkennung und hierarchischer CNN-Strukturen ist. Außerdem wird in früheren GCNs hauptsächlich die erste Ordnungsinformation (die Koordinaten der Gelenke) genutzt, während die zweite Ordnungsinformation (Länge und Richtung der Knochen) bisher weniger ausgenutzt wurde. In dieser Arbeit wird ein neuartiges Zweikanal-Nonlocal-Graphen-Convolutional Network vorgestellt, um diese Probleme zu lösen. Die Topologie des Graphen in jeder Schicht des Modells kann entweder gleichmäßig oder individuell mittels des Backpropagation-Algorithmus gelernt werden, was eine höhere Flexibilität und Allgemeingültigkeit ermöglicht. Gleichzeitig wird ein Zweikanal-Modell vorgeschlagen, das sowohl Informationen über Gelenke als auch über Knochen simultan modelliert, wodurch die Erkennungsleistung weiter gesteigert wird. Umfangreiche Experimente auf zwei großen Datensätzen, NTU-RGB+D und Kinetics, zeigen, dass die Leistung unseres Modells die der aktuellen State-of-the-Art-Methoden signifikant übertrifft.