شبكة عصبية متعددة الطبقات زمنية مكانيّة للتمييز عن الإشارات الحركية

تمثّل اعتراف الإيماءات عنصرًا أساسيًا في التفاعل بين المركبات ذاتية القيادة والبشر. في حين تتركز النماذج الحالية على دمج عدة وسائط مثل ميزات الصور، ونقاط المفاتيح، و벡تורים العظام، نقدّم بنية شبكة عصبية تحقق نتائج من الطراز الرائد باستخدام بيانات مدخلات فقط من الهيكل العظمي للجسم. ونُقدّم في هذا السياق نموذج "الشبكة العصبية متعددة الطبقات الفضائية الزمنية" (Spatio-Temporal Multilayer Perceptron) لاعتراف بالإيماءات في سياق المركبات ذاتية القيادة. وباستخدام وضعيات الجسم ثلاثية الأبعاد عبر الزمن، نُعرّف عمليات خلط زمنية ومكانية لاستخلاص الميزات في كلا المجالين. بالإضافة إلى ذلك، نُعيد توزين أهمية كل خطوة زمنية باستخدام طبقات "الانكماش والتحفيز" (Squeeze-and-Excitation). ونقدّم تقييمًا واسعًا على مجموعتي بيانات TCG وDrive&Act لإبراز الأداء الواعد لنهجنا. علاوةً على ذلك، نُطبّق نموذجنا على مركبتنا ذاتية القيادة لبيان قدرته على التنفيذ في الزمن الفعلي واستقرار أدائه.