التعرف على إشارات اليد الديناميكية القائمة على العمق والهيكل العظمي باستخدام CNN+RNN

تمثّل القدرة على التعرف على الأنشطة البشرية والتعبيرات الحركية عنصرًا مهمًا في المجال المتنامِ المُسمّى بالذكاء البيئي (Ambient Intelligence)، وبخاصة في دعم المساكن الذكية والحياة المُيسّرة. في هذه الورقة البحثية، نقترح دمج قوة تقنيتين من تقنيات التعلم العميق، وهما الشبكات العصبية التلافيفية (Convolutional Neural Networks - CNN) والشبكات العصبية التكرارية (Recurrent Neural Networks - RNN)، لتمكين التعرف التلقائي على الإشارات اليدوية باستخدام بيانات العمق (Depth) وبيانات الهيكل العظمي (Skeleton). يمكن استخدام كل نوع من هذين النوعين من البيانات بشكل منفصل لتدريب الشبكات العصبية على التعرف على الإشارات اليدوية. في حين أُبلغ سابقًا عن أداء جيد للشبكات التكرارية في التعرف على تسلسلات الحركات لكل مفصل عظمي، بالاعتماد فقط على معلومات الهيكل العظمي، فإن هذا البحث يهدف إلى الاستفادة من بيانات العمق وتطبيق الشبكات التلافيفية لاستخلاص المعلومات المكانية المهمة من صور العمق. وبشكل متكامل، تُظهر الشبكة المُرتبطة (Tandem) المكونة من CNN وRNN قدرة أعلى على التعرف بدقة على تسلسل من الإشارات اليدوية. كما تم دراسة أنواع مختلفة من التجميع (Fusion) لدمج معلومات الهيكل العظمي وبيانات العمق، بهدف استخلاص معلومات مكانية-زمنية شاملة. وقد تم تحقيق دقة إجمالية بلغت 85.46٪ على مجموعة بيانات الإشارات اليدوية الديناميكية (Dynamic Hand Gesture-14/28).