InfoGCN: التعلم التمثيلي للتحديد القائم على هياكل الجسد البشري للإجراءات

تمثّل التعرف على الحركات القائمة على هياكل الإنسان وسيلة قيمة لفهم تعقيدات السلوك البشري، نظرًا لقدرته على التعامل مع العلاقات المعقدة بين القيود الجسدية والنيّة. وعلى الرغم من أن العديد من الدراسات ركّزت على ترميز الهيكل العظمي، إلا أن اهتمامًا أقل تمّ إعطاؤه لدمج هذه المعلومات في التمثيلات المُخفيّة للحركات البشرية. يقدّم InfoGCN إطارًا لتعلم التعرف على الحركات يدمج هدفًا تعلّميًا جديدًا وطريقة ترميز مبتكرة. أولاً، نصمم هدفًا تعلّميًا يعتمد على عبء المعلومات (information bottleneck) لتوجيه النموذج نحو تعلّم تمثيلات مُخفيّة مفيدة ومتواضعة في الحجم. ولتوفير معلومات تمييزية لتصنيف الحركات، نُقدّم تحويلًا تلقائيًا مبنيًا على الانتباه (attention-based graph convolution) يلتقط البنية الداخلية المتأثّرة بالسياق للحركات البشرية. بالإضافة إلى ذلك، نقدّم تمثيلًا متعدد الأنواع للهيكل العظمي باستخدام الموضع النسبي للمفاصل، المصمّم لتوفير معلومات مكانيّة مكملة للمفاصل. يتفوّق InfoGCN على أحدث النماذج المعروفة في عدة معايير للتعرف على الحركات القائمة على الهيكل العظمي، بتحقيق دقة بلغت 93.0% على مجموعة بيانات NTU RGB+D 60 (بشكل تقسيم عبر الأفراد)، و89.8% على NTU RGB+D 120 (بشكل تقسيم عبر الأفراد)، و97.0% على مجموعة NW-UCLA.