HyperAIHyperAI
vor einem Monat

Sparseness trifft auf Tiefenstruktur: 3D-Mensch-Pose-Schätzung aus monokularen Videos

Xiaowei Zhou; Menglong Zhu; Spyridon Leonardos; Kosta Derpanis; Kostas Daniilidis
Sparseness trifft auf Tiefenstruktur: 3D-Mensch-Pose-Schätzung aus monokularen Videos
Abstract

Dieses Papier behandelt die Herausforderung der 3D-Vollkörper-Pose-Schätzung aus einer monokularen Bildsequenz. Dabei werden zwei Fälle betrachtet: (i) die Bildpositionen der menschlichen Gelenke sind gegeben und (ii) die Bildpositionen der Gelenke sind unbekannt. Im ersten Fall wird ein neuer Ansatz vorgestellt, der einen sparsity-getriebenen 3D-geometrischen Prior und zeitliche Glättung integriert. Im zweiten Fall wird der erste Fall durch den Umgang mit den Bildpositionen der Gelenke als latente Variablen erweitert. Ein tiefes, vollständig konvolutionsbasiertes Netzwerk wird trainiert, um Unsicherheitskarten der 2D-Gelenkpositionen vorherzusagen. Die 3D-Pose-Schätzungen werden über die gesamte Sequenz mittels eines Erwartungswert-Maximierungsalgorithmus realisiert, wobei gezeigt wird, dass die Unsicherheiten der 2D-Gelenkpositionen während der Inferenz bequem marginalisiert werden können. Eine empirische Auswertung am Human3.6M-Datensatz zeigt, dass die vorgeschlagenen Ansätze eine höhere Genauigkeit bei der 3D-Pose-Schätzung im Vergleich zu den Stand-of-the-Art-Baselines erreichen. Des Weiteren übertreffen die vorgeschlagenen Ansätze eine öffentlich verfügbare 2D-Pose-Schätzungs-Baseline auf dem anspruchsvollen PennAction-Datensatz.Hinweis: "sparsity-driven" wurde hier als "sparsity-getrieben" übersetzt, was in diesem Kontext verwendet wird, um den Begriff "sparsity-based" oder "sparse" zu verdeutlichen. Bei weniger geläufigen Begriffen wie "latent variables" wurde das englische Original in Klammern angegeben, um Informationen zu bewahren: "latente Variablen (latent variables)".