HyperAIHyperAI
vor 9 Tagen

UniPose: Unified Human Pose Estimation in Single Images and Videos

Bruno Artacho, Andreas Savakis
UniPose: Unified Human Pose Estimation in Single Images and Videos
Abstract

Wir stellen UniPose vor, einen einheitlichen Rahmen für die menschliche Pose-Schätzung, basierend auf unserer „Waterfall“-Atrous-Spatial-Pooling-Architektur, der state-of-the-art-Ergebnisse auf mehreren Pose-Schätzungsmetriken erzielt. Aktuelle Methoden zur Pose-Schätzung, die standardmäßige CNN-Architekturen nutzen, stützen sich stark auf statistische Nachverarbeitung oder vordefinierte Anchor-Posen zur Gelenklokalisierung. UniPose integriert kontextuelle Segmentierung und Gelenklokalisierung, um die menschliche Pose in einem einzigen Schritt mit hoher Genauigkeit zu schätzen, ohne auf statistische Nachverarbeitungsmethoden angewiesen zu sein. Der Waterfall-Modul in UniPose nutzt die Effizienz des fortschreitenden Filterns in der Kaskadenarchitektur, während er gleichzeitig eine mehrskalige Sichtweite aufrechterhält, die mit Konfigurationen des Spatial Pyramid vergleichbar ist. Darüber hinaus wird unsere Methode auf UniPose-LSTM erweitert, um Mehrbildverarbeitung zu ermöglichen, und erreicht state-of-the-art-Ergebnisse für zeitliche Pose-Schätzung in Videos. Unsere Ergebnisse auf mehreren Datensätzen zeigen, dass UniPose mit einem ResNet-Backbone und dem Waterfall-Modul eine robuste und effiziente Architektur für die Pose-Schätzung darstellt, die state-of-the-art-Leistungen sowohl bei der Einzelperson-Pose-Detektion in Einzelbildern als auch in Videos erzielt.