A2J: Anchor-to-Joint Regressionsnetzwerk für die 3D-Arthropose-Schätzung aus einem einzelnen Tiefenbild

Für die Aufgabe der 3D-Hand- und Körperteilhaltungsschätzung in Tiefenbildern wird ein neuartiger, ankerbasiertes Verfahren vorgeschlagen, das als Anchor-to-Joint Regression Network (A2J) bezeichnet wird und die Fähigkeit zum end-to-end-Lernen besitzt. Innerhalb von A2J werden Ankerpunkte dicht auf dem Tiefenbild verteilt, um globale und lokale räumliche Kontextinformationen zu erfassen. Diese dienen als lokale Regressoren für die Gelenke und tragen durch eine Ensemble-Methode zur Vorhersage der Gelenkpositionen bei, um die Generalisierungsfähigkeit zu verbessern. Das vorgeschlagene Paradigma zur 3D-artikulierten Haltungsschätzung unterscheidet sich von den aktuellen Methoden basierend auf Encoder-Decoder-FCN, 3D-CNN und Punktmengen. Um informative Ankerpunkte für bestimmte Gelenke zu identifizieren, wird auch ein Anker-Vorschlagsverfahren für A2J vorgeschlagen. Gleichzeitig wird ein 2D-CNN (z.B., ResNet-50) als Backbone-Netzwerk verwendet, um A2J zu treiben, ohne zeitintensive 3D-Faltungs- oder Deconvolutionschichten einzusetzen. Die Experimente mit drei Handdatensätzen und zwei Körperteildatensätzen bestätigen die Überlegenheit von A2J. Zudem erreicht A2J eine hohe Ausführungsrate von etwa 100 FPS auf einer einzelnen NVIDIA 1080Ti-GPU.