HyperAIHyperAI
vor 17 Tagen

Leichtgewichtige Multi-View-3D-Pose-Schätzung durch kameradisentangierte Darstellung

Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang
Leichtgewichtige Multi-View-3D-Pose-Schätzung durch kameradisentangierte Darstellung
Abstract

Wir präsentieren eine leichte Lösung zur Rekonstruktion der 3D-Gesten aus mehreren Ansichten, die mit räumlich kalibrierten Kameras aufgenommen wurden. Aufbauend auf jüngsten Fortschritten im Bereich der interpretierbaren Darstellungslernverfahren nutzen wir die 3D-Geometrie, um die Eingabebilder zu einer einheitlichen latenten Darstellung der Gesten zu fusionieren, die von den Kameraperspektiven entkoppelt ist. Dadurch können wir effizient über die 3D-Gesten verschiedener Ansichten nachdenken, ohne rechenintensive volumetrische Gitter einzusetzen. Unser Architekturbedingungiert die gelernte Darstellung anhand von Kameraprojektionsoperatoren, um präzise 2D-Detektionen pro Ansicht zu erzeugen, die einfach durch eine differenzierbare Direct Linear Transform (DLT)-Schicht in 3D überführt werden können. Um dies effizient zu ermöglichen, schlagen wir eine neuartige Implementierung der DLT vor, die auf GPU-Architekturen um Größenordnungen schneller ist als herkömmliche, auf SVD basierende Triangulationsmethoden. Wir evaluieren unseren Ansatz an zwei großen menschlichen Gesten-Datensätzen (H36M und Total Capture): Unser Verfahren erreicht eine Leistung, die die beste bisherige volumetrische Methode übertrifft oder ihr gleichkommt, wobei es im Gegensatz zu diesen Echtzeit-Leistung erzielt.