HyperAIHyperAI
vor 2 Monaten

Trajektorienraumfaktorisierung für die tiefenbildbasierte 3D-Pose-Schätzung von Menschen

Jiahao Lin; Gim Hee Lee
Trajektorienraumfaktorisierung für die tiefenbildbasierte 3D-Pose-Schätzung von Menschen
Abstract

Bestehende tiefen Lernansätze für die 3D-Pose-Schätzung von Videos basieren entweder auf rekurrenten oder konvolutionellen neuronalen Netzen (RNNs oder CNNs). Allerdings können RNN-basierte Frameworks nur Sequenzen mit begrenzter Anzahl von Frames bearbeiten, da sequentielle Modelle anfällig für schlechte Frames sind und über lange Sequenzen hinweg tendenziell abdriften. Obwohl bestehende CNN-basierte zeitliche Frameworks versuchen, die Sensitivitäts- und Driftprobleme durch gleichzeitige Verarbeitung aller Eingabeframes in der Sequenz zu lösen, ist das aktuell beste CNN-basierte Framework auf die 3D-Pose-Schätzung eines einzelnen Frames aus einer sequentiellen Eingabe beschränkt. In dieser Arbeit schlagen wir ein tiefen Lernbasiertes Framework vor, das Matrixfaktorisierung zur sequentiellen 3D-Pose-Schätzung nutzt. Unser Ansatz verarbeitet alle Eingabeframes gleichzeitig, um Sensitivitäts- und Driftprobleme zu vermeiden, und gibt dennoch 3D-Pose-Schätzungen für jeden Frame in der Eingabesequenz aus. Genauer gesagt werden die 3D-Posen in allen Frames als eine Bewegungsmatrix dargestellt, die in eine Trajektorienbasis-Matrix und eine Trajektorienkoeffizienten-Matrix faktorisiert wird. Die Trajektorienbasis-Matrix wird mithilfe von Matrixfaktorisierungsverfahren wie Singulärwertzerlegung (SVD) oder diskreter Kosinustransformation (DCT) vorberechnet, und das Problem der sequentiellen 3D-Pose-Schätzung wird darauf reduziert, ein tiefes Netzwerk zu trainieren, um die Trajektorienkoeffizienten-Matrix zu regredieren. Wir zeigen die Effektivität unseres Frameworks bei langen Sequenzen durch Spitzenleistungen auf mehreren Benchmark-Datensätzen. Unsere Quellcode ist unter folgendem Link verfügbar: https://github.com/jiahaoLjh/trajectory-pose-3d.

Trajektorienraumfaktorisierung für die tiefenbildbasierte 3D-Pose-Schätzung von Menschen | Neueste Forschungsarbeiten | HyperAI