HyperAIHyperAI

Command Palette

Search for a command to run...

TriHorn-Net: Ein Modell zur genauen tiefenbasierten 3D-Handpose-Schätzung

Mohammad Rezaei Razieh Rastgoo Vassilis Athitsos

Zusammenfassung

3D-Handpose-Schätzungsmethoden haben in letzter Zeit erhebliche Fortschritte gemacht. Dennoch ist die Schätzgenauigkeit für bestimmte Anwendungen in der realen Welt oft noch weit von ausreichend entfernt, was erhebliches Verbesserungspotenzial offenlässt. In diesem Artikel wird TriHorn-Net vorgestellt, ein neuartiges Modell, das durch spezifische Innovationen die Genauigkeit der Handpose-Schätzung auf Tiefenbildern verbessert. Die erste Innovation besteht darin, die 3D-Handpose-Schätzung in zwei Teilprobleme zu zerlegen: die Schätzung der 2D-Gelenkpositionen im Tiefenbildraum (UV) und die Schätzung der zugehörigen Tiefenwerte, unterstützt durch zwei komplementäre Aufmerksamkeitskarten. Diese Zerlegung verhindert, dass die schwierigere Tiefenschätzung – sowohl auf der Vorhersage- als auch auf der Merkmalsdarstellungsebene – die Schätzung der UV-Positionen beeinträchtigt. Die zweite Innovation ist PixDropout, das, soweit uns bekannt ist, die erste auf Erscheinung basierende Datenaugmentation-Methode für Hand-Tiefenbilder darstellt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Modell die derzeit besten Ansätze auf drei öffentlichen Benchmark-Datensätzen übertrifft. Die Implementierung ist unter https://github.com/mrezaei92/TriHorn-Net verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp