التعرف على الإيماءات المنعزلة على نطاق واسع باستخدام شبكات العصبونات المت convoledة

يقترح هذا البحث ثلاثة تمثيلات بسيطة ومكثفة ومعتمدة للسلاسل العمقية، وهي تُعرف على التوالي بـ "الصور العمقية الديناميكية" (DDI)، و"الصور العمقية الطبيعية الديناميكية" (DDNI)، و"الصور العمقية الحركية الطبيعية الديناميكية" (DDMNI). يتم بناء هذه الصور الديناميكية من سلسلة خرائط عمق باستخدام تقنية التجميع الرتبة ثنائية الاتجاه لالتقاط المعلومات المكانية-الزمنية بكفاءة. تمكن مثل هذه التمثيلات القائمة على الصور من تعديل نماذج الشبكات العصبية التلافيفية (ConvNets) الموجودة والمدربة على بيانات الصور لتصنيف السلاسل العمقية، دون إدخال معلمات كبيرة يجب تعلمها. استنادًا إلى هذه التمثيلات المقترحة، تم تطوير طريقة قائمة على الشبكات العصبية التلافيفية (ConvNets) للتعرف على الإيماءات وتقييمها في تحدي ChaLearn Looking at People (LAP) للتعرف على الإيماءات المعزولة على نطاق كبير لعام 2016. حققت هذه الطريقة دقة تصنيف بنسبة 55.57٪ وحلت في المركز الثاني في هذا التحدي، رغم أنها كانت قريبة جدًا من أفضل الأداء حتى مع استخدامها فقط بيانات العمق.