متحركات البوسيت: تمثيل حركي عظمي تمييزي وقابل للتفسير للإعتراف بالإجراءات

بالنظر إلى فيديو أو سلسلة زمنية من بيانات الهيكل العظمي، تقوم أنظمة التعرف على الحركات بتصنيف الحركات باستخدام مؤشرات مثل الحركة، والشكل، والوضعية. طوال العقد الماضي، تم نمذجة الحركات باستخدام تمثيلات ميزات منخفضة المستوى مثل "مجموعة الميزات" (Bag of Features). وظهر في الأبحاث الحديثة أن التمثيلات من المستوى المتوسط التي تُمثل حركات أجزاء الجسم (مثل حركة اليد للأمام) يمكن أن تكون فعالة للغاية. ومع ذلك، فإن هذه الميزات من المستوى المتوسط غالبًا ما تكون مُصاغة يدويًا، ويتم تعلم قاموس الميزات الممثلة باستخدام مناهج مخصصة وغير منتظمة. بينما يمكن تطبيق طرق تعلم الميزات التلقائية مثل تعلم القاموس النادر الخاضع للإشراف أو الشبكات العصبية على تعلم تمثيل الميزات وال classifiers للحركات معًا، إلا أن الميزات الناتجة تكون عادة غير قابلة للتفسير. بخلاف ذلك، يهدف عملنا إلى تطوير إطار منهجي لتعلم الميزات لاستخلاص أنماط حركية عظمية تمييزية وقابلة للتفسير للتمييز بين الحركات. ولتحقيق هذا الهدف، نقترح ميزة جديدة تعتمد على حركة أجزاء الجسم تُسمى "متحرك بوزيلت" (Moving Poselet)، والتي تمثل تكوينًا معينًا لجزء من الجسم يخضع لحركة محددة. كما نقترح خوارزمية بسيطة لتعلم متحرك بوزيلت وال classifiers للحركات معًا. أظهرت التجارب على مجموعات بيانات MSR Action3D، وMSR DailyActivity3D، وBerkeley MHAD أن نموذجنا ذا الطبقتين يتفوق على النماذج ذات الطبقتين الأخرى التي تعتمد على ميزات مُصاغة يدويًا، ويحقق نتائج مماثلة لتلك التي تحققها نماذج الشبكات العصبية التكرارية الهرمية (HRNN) متعددة الطبقات الحديثة، التي تستخدم طبقات متعددة من الشبكات التكرارية لتمثيل الهرمية البشرية.