HyperAIHyperAI
vor 2 Monaten

Detect-and-Track: Effiziente Pose-Schätzung in Videos

Rohit Girdhar; Georgia Gkioxari; Lorenzo Torresani; Manohar Paluri; Du Tran
Detect-and-Track: Effiziente Pose-Schätzung in Videos
Abstract

Dieses Papier behandelt das Problem der Schätzung und Verfolgung von Körperschlüsselpunkten in komplexen, mehrpersonigen Videos. Wir schlagen einen extrem leichten, aber dennoch hochwirksamen Ansatz vor, der auf den neuesten Fortschritten im Bereich der Menschenerkennung und Videoanalyse basiert. Unsere Methode arbeitet in zwei Stufen: die Schätzung von Schlüsselpunkten in einzelnen Bildern oder kurzen Videosequenzen, gefolgt von einer leichten Verfolgung, um über das gesamte Video verknüpfte Schlüsselpunktprognosen zu generieren. Für die Pose-Schätzung auf Bildenebene experimentieren wir mit Mask R-CNN sowie unserer eigenen vorgeschlagenen 3D-Erweiterung dieses Modells, die zeitliche Informationen über kurze Sequenzen nutzt, um robustere Prognosen für einzelne Bilder zu erzeugen. Wir führen umfangreiche ablativ-experimentelle Untersuchungen am neu veröffentlichten Benchmark für mehrpersonige Video-Pose-Schätzung, PoseTrack, durch, um verschiedene Designentscheidungen unseres Modells zu validieren. Unser Ansatz erreicht eine Genauigkeit von 55,2 % im Validierungsdatensatz und 51,8 % im Testdatensatz gemessen an der Multi-Object Tracking Accuracy (MOTA)-Metrik und erzielt Spitzenleistungen bei der ICCV 2017 PoseTrack-Schlüsselpunktverfolgungs-Ausforderung.

Detect-and-Track: Effiziente Pose-Schätzung in Videos | Neueste Forschungsarbeiten | HyperAI