HyperAIHyperAI
vor 18 Tagen

Komprimierte volumetrische Heatmaps für die Mehrpersonen-3D-Pose-Schätzung

Matteo Fabbri, Fabio Lanzi, Simone Calderara, Stefano Alletto, Rita Cucchiara
Komprimierte volumetrische Heatmaps für die Mehrpersonen-3D-Pose-Schätzung
Abstract

In diesem Artikel präsentieren wir einen neuen Ansatz zur bottom-up 3D-Menschenpose-Schätzung mehrerer Personen aus monokularen RGB-Bildern. Wir schlagen vor, hochauflösende volumetrische Heatmaps zur Modellierung von Gelenkpositionen zu verwenden, und entwickeln eine einfache und effektive Kompressionsmethode, um die Größe dieser Darstellung erheblich zu reduzieren. Im Kern des vorgeschlagenen Verfahrens steht unser Volumetrischer Heatmap-Autoencoder, ein vollständig konvolutionales Netzwerk, das dafür verantwortlich ist, die Ground-Truth-Heatmaps in eine dichte Zwischendarstellung zu komprimieren. Ein zweites Modell, der Code-Predictor, wird anschließend trainiert, um diese Codes vorherzusagen, die im Testzeitpunkt wieder dekomprimiert werden können, um die ursprüngliche Darstellung rekonstruieren zu können. Unsere experimentelle Bewertung zeigt, dass unser Verfahren im Vergleich zu aktuellen State-of-the-Art-Methoden sowohl auf Datensätzen für mehrere als auch für einzelne Personen eine überzeugende Leistung erzielt. Dank unserer neuartigen Kompressionsstrategie kann das Verfahren vollständige Full-HD-Bilder mit einer konstanten Laufzeit von 8 fps verarbeiten, unabhängig von der Anzahl der Personen in der Szene. Der Quellcode und die Modelle sind unter https://github.com/fabbrimatteo/LoCO verfügbar.