MMNet: شبكة متعددة الوسائط قائمة على النموذج للتعرف على الحركات البشرية في مقاطع الفيديو RGB-D
تم دراسة التعرف على الإجراءات البشرية (HAR) في مقاطع الفيديو RGB-D على نطاق واسع منذ إطلاق أجهزة الاستشعار العميقة الميسورة التكلفة. حاليًا، حققت الطرق الأحادية الطيف (مثل الأساليب القائمة على الهيكل العظمي والمقابلة على مقاطع الفيديو RGB) تحسينات كبيرة بفضل التوسع المستمر في حجم قواعد البيانات. ومع ذلك، فإن الطرق متعددة الطيف، وخاصة تلك التي تعتمد على دمج على مستوى النموذج، لم تُدرس بشكل واسع. في هذه الورقة، نقترح شبكة متعددة الطيف قائمة على النموذج (MMNet) تقوم بدمج طيفي الهيكل العظمي ومقاطع الفيديو RGB من خلال نهج قائم على النموذج. يهدف هذا الأسلوب إلى تحسين دقة التعرف المجمعة من خلال توظيف فعّال للمعلومات المكملة تباعًا من مختلف الطيفيات البياناتية. بالنسبة لخطة الدمج القائمة على النموذج، نستخدم شبكة تقوية ترابطية زمنية-مكانية (ST-GCN) للطيفية الهيكلية العظمية لاستخلاص أوزان الانتباه التي تُحَوَّل إلى شبكة الطيفية RGB. أُجريت تجارب واسعة على خمسة مجموعات بيانات معيارية: NTU RGB+D 60، NTU RGB+D 120، PKU-MMD، Northwestern-UCLA Multiview، وToyota Smarthome. عند دمج نتائج الطيفيات المختلفة، أظهرت النتائج أن طريقة MMNet تفوق الطرق الرائدة في مجال التعرف على الإجراءات البشرية في ستة بروتوكولات تقييم على الخمس مجموعات البيانات؛ وبالتالي، يمكن لـ MMNet فعّالًا التقاط السمات المكملة التباعية بين الطيفيات المختلفة في مقاطع الفيديو RGB-D، وتقديم سمات أكثر تمييزًا للتعرف على الإجراءات البشرية. كما تم اختبار نموذج MMNet على مجموعة بيانات فيديو RGB (Kinetics 400) التي تحتوي على إجراءات خارجية أكثر، وأظهرت النتائج تماشيًا ملحوظًا مع تلك التي تم الحصول عليها من مجموعات بيانات الفيديو RGB-D.