HyperAIHyperAI
vor 17 Tagen

Deep Dual Consecutive Network für die menschliche Pose-Schätzung

Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji, Bailin Yang, Xun Wang
Deep Dual Consecutive Network für die menschliche Pose-Schätzung
Abstract

Die Schätzung menschlicher Gelenkpositionen über mehrere Frames unter komplexen Bedingungen ist herausfordernd. Obwohl state-of-the-art-Methoden zur Erkennung menschlicher Gelenke beachtliche Ergebnisse für statische Bilder erzielt haben, erweisen sich diese Modelle bei der Anwendung auf Videosequenzen als weniger leistungsfähig. Häufige Mängel sind die Unfähigkeit, Bewegungsunschärfen, Fokusverluste im Video oder Gelenkverdeckungen zu bewältigen, was auf die Unfähigkeit zurückzuführen ist, zeitliche Abhängigkeiten zwischen Videoframes zu erfassen. Andererseits verursacht die direkte Anwendung herkömmlicher rekurrenter neuronaler Netze empirische Schwierigkeiten bei der Modellierung räumlicher Kontexte, insbesondere im Umgang mit Gelenkverdeckungen. In diesem Artikel stellen wir einen neuartigen Ansatz zur mehrfach-frame-basierten Schätzung menschlicher Körperhaltungen vor, der reichhaltige zeitliche Hinweise zwischen Videoframes nutzt, um die Detektion von Schlüsselpunkten zu unterstützen. Unser Framework besteht aus drei modular aufgebauten Komponenten: Ein Pose Temporal Merger kodiert den spatiotemporalen Kontext der Gelenke, um wirksame Suchbereiche zu generieren, während ein Pose Residual Fusion-Modul gewichtete Gelenkresiduen in zwei Richtungen berechnet. Diese werden anschließend durch unser Pose Correction Network effizient zur Verbesserung der Schätzung verarbeitet. Unsere Methode erreicht die Platzierung eins in der Multi-frame Person Pose Estimation Challenge auf den großskaligen Benchmark-Datensätzen PoseTrack2017 und PoseTrack2018. Wir haben unseren Quellcode veröffentlicht, um zukünftige Forschungsarbeiten zu inspirieren.