TriHorn-Net: Ein Modell zur genauen tiefenbasierten 3D-Handpose-Schätzung

3D-Handpose-Schätzungsmethoden haben in letzter Zeit erhebliche Fortschritte gemacht. Dennoch ist die Schätzgenauigkeit für bestimmte Anwendungen in der realen Welt oft noch weit von ausreichend entfernt, was erhebliches Verbesserungspotenzial offenlässt. In diesem Artikel wird TriHorn-Net vorgestellt, ein neuartiges Modell, das durch spezifische Innovationen die Genauigkeit der Handpose-Schätzung auf Tiefenbildern verbessert. Die erste Innovation besteht darin, die 3D-Handpose-Schätzung in zwei Teilprobleme zu zerlegen: die Schätzung der 2D-Gelenkpositionen im Tiefenbildraum (UV) und die Schätzung der zugehörigen Tiefenwerte, unterstützt durch zwei komplementäre Aufmerksamkeitskarten. Diese Zerlegung verhindert, dass die schwierigere Tiefenschätzung – sowohl auf der Vorhersage- als auch auf der Merkmalsdarstellungsebene – die Schätzung der UV-Positionen beeinträchtigt. Die zweite Innovation ist PixDropout, das, soweit uns bekannt ist, die erste auf Erscheinung basierende Datenaugmentation-Methode für Hand-Tiefenbilder darstellt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Modell die derzeit besten Ansätze auf drei öffentlichen Benchmark-Datensätzen übertrifft. Die Implementierung ist unter https://github.com/mrezaei92/TriHorn-Net verfügbar.