Mehrkontext-Aufmerksamkeit für die Schätzung der menschlichen Körperhaltung

In dieser Arbeit schlagen wir vor, Faltungsneuronale Netze (CNNs) mit einem Mehrfach-Kontext-Aufmerksamkeitsmechanismus in ein End-to-End-Framework für die Schätzung der menschlichen Körperhaltung zu integrieren. Wir verwenden gestapelte Stundenglasnetze, um Aufmerksamkeitskarten aus Merkmalen verschiedener Auflösungen und Semantiken zu generieren. Das konditionale Markowfeld (Conditional Random Field, CRF) wird eingesetzt, um die Korrelationen zwischen benachbarten Regionen in der Aufmerksamkeitskarte zu modellieren. Wir kombinieren ferner das ganzheitliche Aufmerksamkeitsmodell, das sich auf die globale Konsistenz des gesamten menschlichen Körpers konzentriert, und das Körperpart-Aufmerksamkeitsmodell, das sich auf die detaillierte Beschreibung verschiedener Körperteile fokussiert. Daher verfügt unser Modell über die Fähigkeit, sich auf verschiedene Granularitätsstufen von lokalen auffälligen Regionen bis hin zu global semantisch konsistenten Räumen zu konzentrieren. Zudem haben wir neuartige Stundenglas-Residuen-Einheiten (Hourglass Residual Units, HRUs) entwickelt, um den Rezeptivbereich des Netzes zu erweitern. Diese Einheiten sind Erweiterungen von Residueneinheiten mit einem Nebenzweig, der Filter mit größeren Rezeptivbereichen einbezieht. Somit werden Merkmale unterschiedlicher Skalen innerhalb der HRUs gelernt und kombiniert. Die Effektivität des vorgeschlagenen Mehrfach-Kontext-Aufmerksamkeitsmechanismus und der Stundenglas-Residuen-Einheiten wurde an zwei weit verbreiteten Benchmarks für die Schätzung der menschlichen Körperhaltung evaluiert. Unser Ansatz übertreffen alle existierenden Methoden auf beiden Benchmarks in Bezug auf alle Körperteile.