Optimierung der Netzwerkstruktur für die 3D-Gestenerkennung von Menschen

Eine menschliche Körperhaltung wird natürlich als Graph dargestellt, wobei die Gelenke die Knoten und die Knochen die Kanten darstellen. Daher ist es naheliegend, Graphen-Convolutional Networks (GCN) einzusetzen, um 3D-Haltungen aus 2D-Haltungen zu schätzen. In dieser Arbeit schlagen wir eine generische Formulierung vor, bei der sowohl GCN als auch Fully Connected Networks (FCN) spezielle Fälle sind. Aus dieser Formulierung ergibt sich, dass GCN bei der Schätzung von 3D-Haltungen eine begrenzte Darstellungskapazität aufweist. Wir überwinden diese Einschränkung, indem wir das Locally Connected Network (LCN) einführen, das natürlicherweise durch diese generische Formulierung implementiert werden kann. LCN verbessert die Darstellungskapazität signifikant gegenüber GCN. Zudem besitzt es aufgrund der Tatsache, dass jedes Gelenk nur mit wenigen benachbarten Gelenken verbunden ist, eine starke Verallgemeinerungsfähigkeit. Experimente auf öffentlichen Datensätzen zeigen dies: (1) Die Methode übertrifft die aktuellen State-of-the-Art-Verfahren; (2) sie benötigt weniger Trainingsdaten als alternative Modelle; (3) sie generalisiert gut auf unbekannte Bewegungen und Datensätze.