Zur schnellen und genauen Schätzung menschlicher Pose mittels weicher Gated-Skip-Verbindungen

Diese Arbeit befasst sich mit einer hochgenauen und hocheffizienten Schätzung der menschlichen Körperhaltung. Neuere Ansätze basierend auf Fully Convolutional Networks (FCNs) haben hervorragende Ergebnisse für dieses anspruchsvolle Problem erzielt. Während sich die Verwendung von Residual-Verbindungen innerhalb von FCNs als entscheidend für die Erreichung hoher Genauigkeit erwiesen hat, analysieren wir diese Entwurfsentscheidung im Kontext der Verbesserung sowohl der Genauigkeit als auch der Effizienz im Vergleich zum aktuellen Stand der Technik neu. Insbesondere leisten wir folgende Beiträge: (a) Wir stellen gated skip connections mit kanalweise lernbaren Parametern vor, um den Datenfluss für jeden Kanal innerhalb des Moduls innerhalb des Makro-Moduls zu steuern. (b) Wir führen ein hybrides Netzwerk ein, das die Architekturen HourGlass und U-Net kombiniert, wodurch die Anzahl der Identitätsverbindungen im Netzwerk minimiert und die Leistung bei gleichbleibendem Parameterbudget gesteigert wird. Unser Modell erreicht den Stand der Technik auf den Datensätzen MPII und LSP. Zudem zeigen wir, dass bei einer Reduktion des Modellgrößen- und Komplexitätsaufwands um den Faktor 3 gegenüber dem ursprünglichen HourGlass-Netzwerk keine Leistungseinbuße auftritt.