هامليت: خوارزمية اRecognition النشاط البشري ذات الانتباه متعدد الوسائط الهرمية

لإتمام التعاون بسلاسة مع البشر، يحتاج الروبوتات إلى القدرة على التعرف بدقة على الأنشطة البشرية. وعلى الرغم من أن الروبوتات الحديثة مزودة بعدة أجهزة استشعار، إلا أن التعرف القوي على الأنشطة البشرية (HAR) يظل مهمة صعبة للروبوتات بسبب التحديات المرتبطة بدمج البيانات متعددة الوسائط. ولحل هذه التحديات، نقدم في هذا العمل خوارزمية للهوية البشرية متعددة الوسائط تعتمد على الشبكات العصبية العميقة، تُسمى HAMLET. تتميز HAMLET ببنية هرمية، حيث يقوم الطبقة السفلى بتشفير السمات الزمانية-المكانية من البيانات أحادية الوسيلة باستخدام آلية انتباه ذات رؤوس متعددة (multi-head self-attention). كما قمنا بتطوير آلية انتباه متعددة الوسائط جديدة، تهدف إلى فصل السمات المميزة لكل وسيلة منفصلة ودمجها لحساب السمات متعددة الوسائط في الطبقة العلوية. في النهاية، تُستخدم السمات متعددة الوسائط في شبكة عصبية متصلة بالكامل (fully connected neural network) للتعرف على الأنشطة البشرية. تم تقييم الخوارزمية من خلال مقارنة أدائها مع عدة خوارزميات حديثة متقدمة للتعرف على الأنشطة على ثلاث مجموعات بيانات للأنشطة البشرية. وأظهرت النتائج أن HAMLET تفوقت على جميع النماذج المُقارنة في جميع المجموعات والمقاييس، حيث بلغت أعلى دقة من الدرجة الأولى (top-1 accuracy) 95.12% و97.45% على مجموعتي بيانات UTD-MHAD [1] وUT-Kinect [2] على التوالي، وبلغت دقة F1-score 81.52% على مجموعة بيانات UCSD-MIT [3]. كما قمنا بتصور خرائط الانتباه أحادية الوسيلة ومتعددة الوسائط، والتي توفر لنا أداة لفهم تأثير آليات الانتباه في التعرف على الأنشطة البشرية.