HyperAIHyperAI
vor 2 Monaten

DeciWatch: Eine einfache Baseline für 10-mal effizientere 2D- und 3D-Pose-Schätzung

Zeng, Ailing ; Ju, Xuan ; Yang, Lei ; Gao, Ruiyuan ; Zhu, Xizhou ; Dai, Bo ; Xu, Qiang
DeciWatch: Eine einfache Baseline für 10-mal effizientere 2D- und 3D-Pose-Schätzung
Abstract

Dieses Papier präsentiert einen einfachen Baseline-Framework für die 2D/3D-Schätzung von menschlichen Posen auf Video-Basis, der eine zehnfache Effizienzsteigerung gegenüber bestehenden Arbeiten erreichen kann, ohne dass sich die Leistung verschlechtert. Dieser Framework wird DeciWatch genannt. Im Gegensatz zu aktuellen Lösungen, die jede einzelne Frame eines Videos schätzen, führt DeciWatch ein einfaches und dennoch effektives Sample-Denoise-Recover-Framework (Stichprobenentnahme-Entrauschung-Wiederherstellung) ein, das nur dünn besetzte Frames beobachtet und von der Kontinuität menschlicher Bewegungen sowie der leichtgewichtigen Pose-Darstellung profitiert. Speziell samples DeciWatch gleichmäßig weniger als 10 % der Video-Frames für eine detaillierte Schätzung, entrauscht die geschätzten 2D/3D-Posen mit einer effizienten Transformer-Architektur und stellt dann die übrigen Frames mit einem weiteren Transformer-basierten Netzwerk präzise wieder her. Ausführliche experimentelle Ergebnisse anhand dreier Video-basierter Aufgaben zur Schätzung menschlicher Posen und zur Wiederherstellung des Körperskeletts mit vier Datensätzen bestätigen die Effizienz und Wirksamkeit von DeciWatch. Der Quellcode ist unter https://github.com/cure-lab/DeciWatch verfügbar.

DeciWatch: Eine einfache Baseline für 10-mal effizientere 2D- und 3D-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI