مراجعة مقارنة لخوارزميات التعرف على الحركات المستندة إلى كينكت الحديثة

التعرف على حركات الإنسان بناءً على الفيديو هو حالياً أحد أكثر المجالات نشاطاً في رؤية الحاسوب. تشير العديد من الدراسات البحثية إلى أن أداء التعرف على الحركات يعتمد بشكل كبير على نوع الخصائص المستخرجة وكيفية تمثيل الحركات. منذ إصدار كاميرا Kinect، تم اقتراح عدد كبير من تقنيات التعرف على حركات الإنسان التي تعتمد على Kinect في الأدبيات العلمية. ومع ذلك، لا تزال هناك نقص في المقارنات الشاملة لهذه التقنيات المعتمدة على Kinect ضمن مجموعات أنواع الخصائص، مثل الخصائص المصنعة يدوياً مقابل خصائص التعلم العميق والخصائص القائمة على العمق مقابل الخصائص القائمة على الهيكل العظمي (skeleton-based). في هذا البحث، نقوم بتحليل ومقارنة عشر خوارزميات حديثة تعتمد على Kinect لكل من التعرف على الحركات بين الأفراد والتعرف على الحركات بين الزوايا البصرية باستخدام ستة مجموعات بيانات مرجعية. بالإضافة إلى ذلك، قدمنا تنفيذاً وتحسيناً لبعض هذه التقنيات وأدرجنا نسخها المعدلة في المقارنة. أظهرت تجاربنا أن معظم الطرق تؤدي بشكل أفضل في التعرف على الحركات بين الأفراد مقارنة بالتعرف بين الزوايا البصرية، وأن الخصائص القائمة على الهيكل العظمي (skeleton-based) هي الأكثر ثباتاً للتعرف بين الزوايا البصرية مقارنة بالخصائص القائمة على العمق (depth-based)، وأن خصائص التعلم العميق هي مناسبة للبيانات الكبيرة.