FreiHAND: مجموعة بيانات لالتقاط وضعية اليد وشكلها دون استخدام علامات من صور RGB فردية

تقدير وضع اليد ثلاثي الأبعاد من صور RGB أحادية يُعد مشكلة ذات غموض عالٍ تعتمد على مجموعة بيانات تدريب خالية من التحيز. في هذه الورقة، نحلل قدرة التعميم بين مجموعات البيانات عند التدريب على مجموعات البيانات الحالية. ونجد أن النماذج تؤدي بشكل جيد على المجموعات التي تم تدريبها عليها، لكنها لا تُظهر قدرة على التعميم على مجموعات بيانات أخرى أو في سياقات واقعية (in-the-wild). كنتيجة لذلك، نقدم أول مجموعة بيانات كبيرة النطاق، متعددة الزوايا، تُرفق بملامح ثلاثية الأبعاد للوضع والشكل اليدوي. وللتمييز على هذه المجموعة البيانات الواقعية، نقترح نهجًا تكراريًا شبه آليًا يُعرف بـ "الإنسان في الحلقة" (human-in-the-loop)، والذي يشمل تحسين عملية تكييف اليد لاستنتاج كل من الوضع ثلاثي الأبعاد والشكل للعينة الواحدة. ونُظهر أن النماذج المدربة على مجموعتنا تُظهر أداءً متسقًا جيدًا عند اختبارها على مجموعات بيانات أخرى. علاوةً على ذلك، تُمكّن هذه المجموعة البيانات من تدريب شبكة تتنبأ بالشكل الكامل المُتَنَوِّع لليد من صورة RGB واحدة. ويمكن أن تُستخدم مجموعة التقييم كمعيار مرجعي (benchmark) لتقدير الشكل المُتَنَوِّع لليد.