من منظورِي، في يديّ: التعرف الدقيق على وضعية اليد ثنائية الأبعاد من منظور ذاتي وتحديد الحركات

إن تمييز الإجراءات ضروري لفهم الفيديو ذاتيّ النظرة، حيث يمكّن من مراقبة تلقائية ومستمرة لنشاطات الحياة اليومية (ADLs) دون أي جهد من المستخدم. يركّز الأدب الحالي على استخدام مدخلات وضع اليد ثلاثي الأبعاد، والتي تتطلب شبكات معالجة معقدة حسابيًا لتقدير العمق أو ارتداء مستشعرات عمق غير مريحة. في المقابل، لا توجد دراسات كافية حول فهم وضع اليد ثنائي الأبعاد في سياق تمييز الإجراءات ذاتية النظرة، على الرغم من توفر نظارات ذكية مريحة في السوق قادرة على التقاط صورة RGB واحدة. يهدف بحثنا إلى سد هذه الفجوة البحثية من خلال استكشاف مجال تقدير وضع اليد ثنائي الأبعاد لتمييز الإجراءات ذاتية النظرة، حيث نقدّم مساهمتين رئيسيتين. أولاً، نقدّم طريقتين جديدتين لتقدير وضع اليد ثنائي الأبعاد: EffHandNet لتقدير اليد الواحدة، وEffHandEgoNet المصممة خصيصًا لمنظور ذاتي النظرة، والتي تُمكّن من التقاط التفاعلات بين اليد والكائنات. وتفوق كلا الطريقتين النماذج الحالية على مجموعتي بيانات H2O وFPHA العامّتين. ثانيًا، نقدّم معمارية مقاومة لتمييز الإجراءات من خلال وضع اليد والكائن ثنائي الأبعاد. تعتمد هذه الطريقة على EffHandEgoNet وطريقة قائمة على التحويل (Transformer) لتمييز الإجراءات. وعند تقييمها على مجموعتي بيانات H2O وFPHA، حققت المعمارية وقت استجابة أسرع ودقة بلغت 91.32% و94.43% على التوالي، متفوّقةً على أحدث النماذج، بما في ذلك النماذج القائمة على ثلاثي الأبعاد. يُظهر عملنا أن استخدام البيانات العظمية ثنائية الأبعاد يُعدّ منهجًا موثوقًا لفهم الإجراءات ذاتية النظرة. وتشير الدراسات التقييمية والتحليلية الواسعة إلى تأثير منهجية تقدير وضع اليد، وكيف تؤثر كل مدخلات على الأداء العام.