HyperAIHyperAI
vor 18 Tagen

MuTr: Multi-Stage Transformer für die Handpose-Schätzung aus Voll-Szenen-Tiefenbildern

{Marek Hrúz, Jakub Straka, Matyáš Boháček, Zdeněk Krňoul, Ivan Gruber, Jakub Kanis}
Abstract

Diese Arbeit stellt eine neuartige, auf Transformers basierende Methode zur Handschätzung vor – DePOTR. Wir testen die DePOTR-Methode auf vier Benchmark-Datensätzen, wobei DePOTR andere Transformer-basierte Ansätze übertrifft und gleichzeitig Ergebnisse erzielt, die mit anderen State-of-the-Art-Methoden vergleichbar sind. Um die Stärken von DePOTR weiter zu demonstrieren, schlagen wir einen neuartigen mehrstufigen Ansatz aus Vollszene-Tiefenbildern vor – MuTr. MuTr entfällt die Notwendigkeit, zwei unterschiedliche Modelle im Pipeline-Prozess der Handschätzung zu verwenden – eines für die Handsuche und eines für die Pose-Schätzung – und erzielt dennoch vielversprechende Ergebnisse. Sofern uns bekannt ist, handelt es sich hierbei um den ersten erfolgreichen Versuch, architektonisch denselben Modellansatz sowohl in standarden als auch in gleichzeitigen Vollszene-Bild-Szenarien einzusetzen, wobei jeweils konkurrenzfähige Ergebnisse erzielt werden. Auf dem NYU-Datensatz erreichen DePOTR und MuTr eine Präzision von jeweils 7,85 mm und 8,71 mm.

MuTr: Multi-Stage Transformer für die Handpose-Schätzung aus Voll-Szenen-Tiefenbildern | Neueste Forschungsarbeiten | HyperAI