Occlusion-Aware Networks für die 3D-Gestenerkennung im Video

Oklusion stellt ein zentrales Problem bei der 3D-Gesten-Schätzung aus monokularen Videos dar. Um dieses Problem anzugehen, stellen wir einen oklusionsbewussten Deep-Learning-Framework vor. Durch die Nutzung geschätzter 2D-Confidence-Heatmaps von Schlüsselpunkten sowie einer optischen-Flow-Konsistenz-Bedingung filtern wir zuverlässige Schätzungen von okkliudierten Schlüsselpunkten heraus. Bei Auftreten von Okklusion verfügen wir über unvollständige 2D-Schlüsselpunkte, die wir in unsere 2D- und 3D-zeitlichen Faltungsnetzwerke (2D- und 3D-TCNs) einfließen lassen, die zeitliche Glättung erzwingen, um eine vollständige 3D-Gesten-Schätzung zu erzeugen. Indem wir unvollständige 2D-Schlüsselpunkte statt vollständige, jedoch fehlerhafte verwenden, sind unsere Netzwerke weniger anfällig für die fehlerbehafteten Schätzungen okkliudierter Schlüsselpunkte. Die Schulung des oklusionsbewussten 3D-TCNs erfordert Paare aus 3D-Gesten und 2D-Gesten mit Okklusions-Labels. Da kein solches Datenset verfügbar ist, führen wir ein „Zylinder-Mann-Modell“ ein, um die räumliche Besetzung von Körperregionen im 3D-Raum zu approximieren. Durch Projektion des Modells auf eine 2D-Ebene unter verschiedenen Blickwinkeln erhalten wir und kennzeichnen die okkliudierten Schlüsselpunkte, wodurch wir eine große Menge an Trainingsdaten bereitstellen können. Zudem nutzen wir dieses Modell, um eine Gesten-Regularisierungs-Bedingung zu erstellen, die bevorzugt, dass die 2D-Schätzungen unzuverlässiger Schlüsselpunkte als okkliudiert klassifiziert werden. Unsere Methode übertrifft die derzeitigen State-of-the-Art-Verfahren auf den Datensätzen Human 3.6M und HumanEva-I.