HyperAIHyperAI
vor 2 Monaten

Tiefe Multitask-Architektur für integrierte 2D- und 3D-Menschenerkennung

Alin-Ionut Popa; Mihai Zanfir; Cristian Sminchisescu
Tiefe Multitask-Architektur für integrierte 2D- und 3D-Menschenerkennung
Abstract

Wir schlagen eine tiefen Multitask-Architektur für die \emph{vollautomatische 2D- und 3D-Menschenerkennung} (DMHS), einschließlich \emph{Erkennung und Rekonstruktion}, in \emph{monokularen Bildern} vor. Das System berechnet die Figur-Hintergrund-Segmentation, identifiziert das menschliche Körperteil auf Pixelbasis semantisch und schätzt die 2D- und 3D-Pose der Person. Das Modell ermöglicht das gemeinsame Training aller Komponenten durch Multi-Task-Verlustfunktionen, bei denen frühe Verarbeitungsstufen rekursiv in fortgeschrittene eingehen, um zunehmend komplexe Berechnungen, Genauigkeit und Robustheit zu erreichen. Die Konzeption ermöglicht es uns, ein vollständiges Trainingsprotokoll zu verknüpfen, indem wir von mehreren Datensätzen profitieren, die ansonsten nur einige der Modellkomponenten einschränkend abdecken würden: komplexer 2D-Bild-Datensatz ohne Körperteilbeschriftung und ohne zugehörige 3D-Ground-Truth oder komplexer 3D-Datensatz mit begrenzter 2D-Hintergrundvariabilität. Anhand detaillierter Experimente basierend auf mehreren anspruchsvollen 2D- und 3D-Datensätzen (LSP, HumanEva, Human3.6M) bewerten wir die Unterstrukturen des Modells, den Einfluss verschiedener Arten von Trainingsdaten im Multitask-Verlust und zeigen, dass an allen Verarbeitungsebenen Stand-of-the-Art-Ergebnisse erzielt werden können. Wir demonstrieren außerdem, dass unsere monokulare RGB-Architektur im Freien wahrnehmungsweise mit einem Stand-of-the-Art-(kommerziellen) Kinect-System auf Basis von RGB-D-Daten konkurrieren kann.

Tiefe Multitask-Architektur für integrierte 2D- und 3D-Menschenerkennung | Neueste Forschungsarbeiten | HyperAI