HyperAIHyperAI
vor 2 Monaten

Wissensgesteuerte tiefe fraktale Neuronale Netze für die Schätzungen der menschlichen Körperhaltung

Guanghan Ning; Zhi Zhang; Zhihai He
Wissensgesteuerte tiefe fraktale Neuronale Netze für die Schätzungen der menschlichen Körperhaltung
Abstract

Die Schätzung menschlicher Körperhaltungen mit tiefen neuronalen Netzen (Deep Neural Networks) hat das Ziel, Eingabebilder mit großen Variationen in mehrere Körperteil-Keypoints abzubilden, die eine Reihe geometrischer Bedingungen und Interdependenzen erfüllen müssen, die durch das Modell des menschlichen Körpers auferlegt werden. Dies ist ein sehr anspruchsvoller Prozess des nichtlinearen Manifold-Learnings in einem hochdimensionalen Merkmalsraum. Wir sind der Meinung, dass tiefgreifende neuronale Netze, die intrinsisch ein algebraisches Berechnungssystem darstellen, nicht der effizienteste Weg sind, um hochkomplexe menschliche Kenntnisse zu erfassen, wie zum Beispiel stark gekoppelte geometrische Eigenschaften und Interdependenzen zwischen Keypoints in menschlichen Körperhaltungen. In dieser Arbeit schlagen wir vor, zu untersuchen, wie externe Kenntnisse effektiv dargestellt und in tiefgreifende neuronale Netze injiziert werden können, um ihren Trainingsprozess durch gelernte Projektionen zu leiten, die angemessene A-priori-Kenntnisse auflegen. Speziell verwenden wir das gestapelte Stundenglasdesign (stacked hourglass design) und das Inception-ResNet-Modul zur Konstruktion eines fraktalen Netzwerks, um Bilder von menschlichen Körperhaltungen ohne explizites grafisches Modellierung in Heatmaps zu regressieren. Externe Kenntnisse kodieren wir mit visuellen Merkmalen, die in der Lage sind, die Einschränkungen von Modellen des menschlichen Körpers zu charakterisieren und die Güte von Zwischenoutputs des Netzwerks zu bewerten. Anschließend injizieren wir diese externen Merkmale in das neuronale Netzwerk unter Verwendung einer Projektionsmatrix, die durch eine Nebenkostenfunktion (auxiliary cost function) gelernt wird. Die Effektivität des vorgeschlagenen Inception-ResNet-Moduls sowie der Vorteil des geleiteten Lernens durch Kenntnisprojektion wird an zwei weit verbreiteten Benchmarks evaluiert. Unser Ansatz erreicht den aktuellen Stand der Technik (state-of-the-art performance) auf beiden Datensätzen.