LCR-Net: Lokalisierung-Klassifikation-Regression für die menschliche Pose

Wir schlagen eine end-to-end-Architektur für die gemeinsame 2D- und 3D-Menschengestenerkennung in natürlichen Bildern vor. Kernstück unseres Ansatzes ist die Generierung und Bewertung einer Reihe von Gesten-Vorschlägen pro Bild, wodurch die gleichzeitige Schätzung von 2D- und 3D-Gesten mehrerer Personen möglich wird. Dadurch ist eine näherungsweise Lokalisierung der Menschen zur Initialisierung nicht erforderlich. Unsere Architektur, die als LCR-Net bezeichnet wird, besteht aus drei Hauptkomponenten: 1) einem Gesten-Vorschlagsgenerator, der potenzielle Gesten an verschiedenen Orten im Bild vorschlägt; 2) einem Klassifikator, der die verschiedenen Gesten-Vorschläge bewertet; und 3) einem Regressor, der die Gesten-Vorschläge sowohl in 2D als auch in 3D verfeinert. Alle drei Stufen teilen sich die konvolutionellen Merkmalsschichten und werden gemeinsam trainiert. Die endgültige Gestenschätzung wird durch Integration benachbarter Gesten-Hypothesen erzielt, was sich gegenüber dem herkömmlichen Non-Maximum-Suppression-Verfahren als vorteilhaft erweist. Unser Ansatz übertrifft die derzeitigen State-of-the-Art-Methoden bei der 3D-Gestenerkennung auf dem Human3.6M-Datensatz, der eine kontrollierte Umgebung darstellt. Zudem erzielt er vielversprechende Ergebnisse auf realen Bildern sowohl für den Einzel- als auch für den Mehrpersonen-Teil des MPII 2D-Gesten-Benchmarks.