خط أساس بسيط لاستعادة الشبكة اليدوية بكفاءة

تقدير وضع اليد ثلاثي الأبعاد وجد تطبيقات واسعة في مجالات مثل التعرف على الإيماءات ومهمات التفاعل بين الإنسان والآلة. مع تحسين الأداء، يزداد تعقيد الأنظمة أيضًا، مما يمكن أن يحد من التحليل المقارن والتنفيذ العملي لهذه الأساليب. في هذا البحث، نقترح خط أساس بسيط ومع ذلك فعال يتفوق ليس فقط على الأساليب الرائدة (SOTA) بل ويظهر أيضًا الكفاءة الحسابية. لتأسيس هذا الخط الأساس، نستخلص العمل الموجود إلى مكونين: مولد رموز ومرجع شبكي (mesh regressor)، ثم نفحص هياكلهما الأساسية. الهيكل الأساسي، في هذا السياق، هو الذي يؤدي الوظائف الذاتية، ويحقق تحسينات كبيرة ويصل إلى أداء ممتاز دون تعقيدات غير ضرورية. النهج المقترح لدينا منفصل عن أي تعديلات على النواة (backbone)، مما يجعله قابل للتكيف مع أي نماذج حديثة. طريقتنا تتفوق على الحلول الموجودة وتصل إلى نتائج رائدة (SOTA) عبر عدة قواعد بيانات. على قاعدة بيانات FreiHAND، أنتجت طريقتنا PA-MPJPE بمقدار 5.7 ملم وPA-MPVPE بمقدار 6.0 ملم. وبالمثل، على قاعدة بيانات Dexycb، لوحظ PA-MPJPE بمقدار 5.5 ملم وPA-MPVPE بمقدار 5.0 ملم. فيما يتعلق بسرعة الأداء، بلغت طريقتنا ما يصل إلى 33 إطارًا في الثانية (fps) عند استخدام HRNet وما يصل إلى 70 إطارًا في الثانية عند استخدام FastViT-MA36.