هامبا: إعادة بناء اليد ثلاثية الأبعاد من منظور واحد باستخدام المسح الثنائي الموجه بالرسوم البيانية مامبا

إعادة بناء اليد ثلاثية الأبعاد من صورة واحدة ملونة (RGB) يمثل تحديًا بسبب الحركة المفصلية، التغطية الذاتية، والتفاعل مع الأشياء. تستخدم الأساليب الحالية التي تعتبر من أفضل ما هو موجود (SOTA) متحولات قائمة على الانتباه لتعلم وضع وشكل اليد ثلاثي الأبعاد، ومع ذلك لا تحقق أداءً قويًا ودقيقًا تمامًا، بشكل أساسي بسبب عدم كفاءة نمذجة العلاقات المكانية بين المفاصل. لحل هذه المشكلة، نقترح إطار عمل جديد موجه بالرسوم البيانية يُسمى هامبا (Hamba)، والذي يربط بين تعلم الرسوم البيانية ونمذجة الفضاء الحالة. فكرة النواة في اقتراحنا هي إعادة صياغة عملية المسح في مامبا إلى مسح ثنائي الاتجاه موجه بالرسم البياني لإجراء إعادة بناء ثلاثية الأبعاد باستخدام عدد قليل من الرموز الفعالة. هذا يمكّننا من تعلم العلاقات المكانية بين المفاصل بكفاءة لتحسين أداء الإعادة.وبشكل خاص، نصمم كتلة فضاء الحالة الموجهة بالرسم البياني (GSS) التي تتعلم العلاقات ذات الهيكل الرسومي والتواليات المكانية للمفاصل وتستخدم 88.5% أقل من الرموز مقارنة بالأساليب القائمة على الانتباه. بالإضافة إلى ذلك، ندمج خصائص فضاء الحالة وخواص الصورة الشاملة باستخدام وحدة دمج. عن طريق استخدام الكتلة GSS ووحدة الدمج، يتمكن هامبا من الاستفادة بفعالية من خصائص فضاء الحالة الموجهة بالرسم البياني وأخذ الخواص العالمية والمحلية بعين الاعتبار معًا لتحسين الأداء.أظهرت التجارب على عدة مقاييس وفي اختبارات حقيقية أن هامبا يتفوق بشكل كبير على الأساليب الموجودة حاليًا والتي تعتبر من أفضل ما هو موجود (SOTA)، حيث حقق دقة PA-MPVPE بلغت 5.3 ملم ودقة F@15mm بلغت 0.992 على مجموعة بيانات فريهاند (FreiHAND). عند قبول هذه الورقة البحثية، كان هامبا يحتل المركز الأول في لوحي الترتيب الخاصين بمباراتين لإعادة بناء اليدين ثلاثيتي الأبعاد.الموقع الإلكتروني للمشروع: https://humansensinglab.github.io/Hamba/