SkeleTR: نحو التعرف على الإجراءات القائمة على الهيكل العظمي في البيئة الطبيعية

نقدّم "SkeleTR"، إطارًا جديدًا للتعرف على الحركات القائمة على الهيكل العظمي. على عكس الدراسات السابقة التي ركّزت بشكل رئيسي على البيئات المُحكَمة، نستهدف حالات واقعية (in-the-wild) التي تتضمن عادةً عددًا متغيرًا من الأشخاص، بالإضافة إلى أشكال متنوعة من التفاعل بينهم. يعمل SkeleTR وفق نموذج مكوّن من مرحلتين: تُنمذج في المرحلة الأولى ديناميات الهيكل العظمي داخل كل فرد باستخدام التحويلات الرسومية (graph convolutions) على كل تسلسل هيكلي، ثم تُستخدم مُشفرات Transformer متعددة الطبقات لالتقاط تفاعلات الأشخاص، وهي عناصر حاسمة للتعرف على الحركات في البيئات الواقعية. ولتقليل الأثر السلبي الناتج عن ارتباطات الهياكل العظمية غير الدقيقة، يعتمد SkeleTR على إدخال تسلسلات قصيرة نسبيًا من الهياكل العظمية، ويزيد من عدد هذه التسلسلات. كحل موحد، يمكن تطبيق SkeleTR مباشرة على مهام متعددة قائمة على الهيكل العظمي، بما في ذلك تصنيف الحركات على مستوى الفيديو، وكشف الحركات على مستوى الفرد، والتعرف على الأنشطة على مستوى المجموعة. كما يتيح تعلم التحويل (transfer learning) والتدريب المشترك بين مهام وقواعد بيانات مختلفة للتعرف على الحركات، مما يؤدي إلى تحسين الأداء. عند تقييمه على مجموعة متنوعة من معايير التعرف على الحركات القائمة على الهيكل العظمي، حقق SkeleTR أفضل أداء مُسجّل حتى الآن.