الغوص في التعرف على الإجراءات القائمة على الهيكل العظمي بحالة واحدة مع احتباسات متنوعة

الإغلاق يُعدّ اضطرابًا شائعًا دائمًا موجودًا في العالم الحقيقي. وبخاصة بالنسبة للتمثيلات النادرة، مثل هياكل الإنسان، قد يؤدي وجود بضع نقاط مغلقة إلى تدمير الاتصال الهندسي والزمني بشكل حاسم، مما يؤثر سلبًا على النتائج. ومع ذلك، لا يأخذ البحث المتعلق بالتعرف على البيانات النادرة من تسلسلات الهياكل العظمية، مثل التعرف على الحركات بعينة واحدة (one-shot action recognition)، في الاعتبار بشكل صريح ظاهرة الإغلاق، رغم انتشارها اليومي. في هذا العمل، نعالج بشكل صريح مشكلة إغلاق الجسم في التعرف على الحركات القائمة على الهياكل العظمية بعينة واحدة (SOAR). ونركز بشكل رئيسي على نوعين من الإغلاقات: 1) الإغلاقات العشوائية، و2) إغلاقات أكثر واقعية ناتجة عن أشياء يومية متنوعة، والتي نُنشئها عن طريق إسقاط نماذج الأثاث ثلاثية الأبعاد الموجودة في مكتبة "إيكيا" (IKEA) إلى نظام الإحداثيات الكاميرية لهياكل العظام ثلاثية الأبعاد، باستخدام معلمات هندسية مختلفة. ونستخدم النموذج المقترح لدمج أجزاء من تسلسلات الهياكل العظمية من ثلاث قواعد بيانات شهيرة للتعرف على الحركات، ونُعدّ أول معيار تقييم (benchmark) للتعرف على الحركات بعينة واحدة من هياكل عظمية مُغلقة جزئيًا. وتميّز معيارنا بوجود إغلاقات أكثر واقعية ناتجة عن أشياء يومية، إذ إن التعرف القياسي على الهياكل العظمية ثلاثية الأبعاد كان يأخذ في الاعتبار فقط المفاصل المفقودة عشوائيًا. وقد قمنا بإعادة تقييم الأطر الحالية المتطورة لـ SOAR في ضوء هذه المهمة الجديدة، كما قدمنا نموذجًا جديدًا يعتمد على المُحولات (Transformer) يُدعى Trans4SOAR، الذي يستخدم ثلاث مسارات بيانات وآلية دمج انتباه مختلط لتخفيف الآثار السلبية الناتجة عن الإغلاقات. وبينما تُظهر تجاربنا انخفاضًا واضحًا في الدقة عند فقدان أجزاء من الهيكل العظمي، فإن هذه الظاهرة تكون أقل تأثيرًا مع Trans4SOAR، الذي يتفوق على باقي المعمارية في جميع قواعد البيانات. وعلى الرغم من تركيزنا المحدد على الإغلاقات، فإن Trans4SOAR يحقق أيضًا أفضل أداء في التعرف القياسي على الحركات بعينة واحدة دون إغلاقات، حيث يتفوق على أفضل نهج منشور بنسبة 2.85% على مجموعة بيانات NTU-120.