منشئات تعليمات وصف الإجراءات التوليدية للتعرف على الإجراءات القائمة على الهيكل العظمي

لقد لاقت التعرف على الحركات القائمة على الهيكل العظمي اهتمامًا كبيرًا في الآونة الأخيرة. تُصاغ الطرق الحالية للتعرف على الحركات القائمة على الهيكل العظمي عادةً كمهام تصنيف واحد-من-الكثير (one-hot classification) ولا تستغل بالكامل العلاقات الدلالية بين الحركات. على سبيل المثال، تُعد "إظهار إشارة النصر" و"إبهام للأعلى" حركتين من حركات اليدين، حيث يكمن الفرق الرئيسي بينهما في حركة اليدين. هذه المعلومات لا تُؤخذ بعين الاعتبار في الترميز الفئوي (one-hot) للأنواع الحركية، لكنها يمكن أن تُكشف من خلال الوصف النصي للحركة. وبالتالي، يمكن أن يُفيد استخدام وصف الحركة أثناء التدريب تعلم التمثيلات بشكل ملحوظ. في هذا العمل، نقترح منهجية تُسمى "مقترحات وصف الحركة التوليدية" (Generative Action-description Prompts - GAP) للتعرف على الحركات القائمة على الهيكل العظمي. وبشكل أكثر تحديدًا، نستخدم نموذج لغوي كبير مُدرّب مسبقًا كمحرك للمعرفة لتكوين وصف نصي تلقائي لحركات أجزاء الجسم أثناء الحركات، ونُقدّم مخططًا تدريبيًا متعدد الوسائط من خلال استخدام مشفر النص لاستخلاص متجهات ميزات لأجزاء الجسم المختلفة، وتعزيز مشفر الهيكل العظمي لتعلم تمثيلات الحركات. تُظهر التجارب أن منهجية GAP المقترحة تحقق تحسنًا ملحوظًا مقارنةً بعديد من النماذج الأساسية، دون أي تكلفة إضافية في مرحلة الاستنتاج. كما تُحقّق GAP أفضل النتائج المُحققة حتى الآن (state-of-the-art) على معايير شهيرة للتعرف على الحركات القائمة على الهيكل العظمي، بما في ذلك NTU RGB+D وNTU RGB+D 120 وNW-UCLA. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/MartinXM/GAP.