HyperAIHyperAI

Command Palette

Search for a command to run...

LCR-Net: Lokalisierung-Klassifikation-Regression für die menschliche Pose

Gregory Rogez Cordelia Schmid Philippe Weinzaepfel

Zusammenfassung

Wir schlagen eine end-to-end-Architektur für die gemeinsame 2D- und 3D-Menschengestenerkennung in natürlichen Bildern vor. Kernstück unseres Ansatzes ist die Generierung und Bewertung einer Reihe von Gesten-Vorschlägen pro Bild, wodurch die gleichzeitige Schätzung von 2D- und 3D-Gesten mehrerer Personen möglich wird. Dadurch ist eine näherungsweise Lokalisierung der Menschen zur Initialisierung nicht erforderlich. Unsere Architektur, die als LCR-Net bezeichnet wird, besteht aus drei Hauptkomponenten: 1) einem Gesten-Vorschlagsgenerator, der potenzielle Gesten an verschiedenen Orten im Bild vorschlägt; 2) einem Klassifikator, der die verschiedenen Gesten-Vorschläge bewertet; und 3) einem Regressor, der die Gesten-Vorschläge sowohl in 2D als auch in 3D verfeinert. Alle drei Stufen teilen sich die konvolutionellen Merkmalsschichten und werden gemeinsam trainiert. Die endgültige Gestenschätzung wird durch Integration benachbarter Gesten-Hypothesen erzielt, was sich gegenüber dem herkömmlichen Non-Maximum-Suppression-Verfahren als vorteilhaft erweist. Unser Ansatz übertrifft die derzeitigen State-of-the-Art-Methoden bei der 3D-Gestenerkennung auf dem Human3.6M-Datensatz, der eine kontrollierte Umgebung darstellt. Zudem erzielt er vielversprechende Ergebnisse auf realen Bildern sowohl für den Einzel- als auch für den Mehrpersonen-Teil des MPII 2D-Gesten-Benchmarks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp