MuTr: محول متعدد المراحل لتقدير وضعية اليد من صورة عمق مشهد كامل
تقدم هذه الدراسة طريقة جديدة تعتمد على المحولات (Transformer) لتقدير وضعية اليد، وهي تُسمى DePOTR. تم اختبار أداء DePOTR على أربع مجموعات بيانات معيارية، حيث تفوقت DePOTR على الطرق الأخرى القائمة على المحولات، مع تحقيق نتائج توازي نتائج الطرق الرائدة الأخرى في المجال. ولإظهار قوة DePOTR بشكل أوضح، نقترح منهجًا جديدًا متعدد المراحل يستند إلى صور عمق كاملة المشهد، يُسمى MuTr. يُزيل هذا المنهج الحاجة إلى استخدام نموذجين مختلفين في سلسلة معالجة تقدير وضعية اليد — أحدهما لتحديد موقع اليد، والآخر لتقدير وضعية اليد — مع الحفاظ على نتائج واعدة. وبمعرفتنا، يُعد هذا أول محاولة ناجحة في استخدام نفس البنية المعمارية للنموذج في كلا البيئتين: الوضع القياسي ووضع صور المشهد الكامل، مع تحقيق نتائج تنافسية في كليهما. على مجموعة بيانات NYU، بلغت دقة DePOTR وMuTr 7.85 مم و8.71 مم على التوالي.