HyperAIHyperAI
منذ 18 أيام

التعلم التعاوني للسمات الزمكانية للتعرف على الإجراءات في الفيديو

{ Shiliang Pu, Di Xie, Qiaoyong Zhong, Chao Li}
التعلم التعاوني للسمات الزمكانية للتعرف على الإجراءات في الفيديو
الملخص

يُعدّ تعلّم السمات المكانية الزمنية ذا أهمية مركزية في التعرف على الأفعال في الفيديوهات. تعتمد النماذج الحالية للشبكات العصبية العميقة إما على تعلّم السمات المكانية والزمنية بشكل منفصل (C2D) أو بشكل مشترك باستخدام معاملات غير مقيدة (C3D). في هذه الورقة، نقترح عملية عصبية جديدة تُشَكِّل السمات المكانية الزمنية بشكل تعاوني من خلال فرض قيد على مشاركة الأوزان في المعاملات القابلة للتعلّم. وبشكل خاص، نُطبّق التباعد الثنائي (2D convolution) على ثلاث زوايا متعامدة من بيانات الفيديو الحجمية، حيث يُتعلَّم كل منها على التوالي السمات المكانية للهيئة والسمات الزمنية للحركة. وبمشاركة نوى التباعد بين الزوايا المختلفة، يتم تعلّم السمات المكانية والزمنية بشكل تعاوني، مما يُسهم في تدعيم بعضها البعض. وبعد ذلك، تُدمج السمات المكملة بواسطة مجموع موزون، حيث يتم تعلّم معاملات الترجيح بشكل متكامل (end-to-end). تحقّق طريقة العمل هذه أداءً متقدّمًا على معايير كبيرة الحجم، وحققت المركز الأول في مسابقة Moments in Time Challenge 2018. علاوةً على ذلك، وباستنادًا إلى المعاملات المُتعلّمة لجميع الزوايا، نتمكن من قياس مساهمة السمات المكانية والزمنية. ويُسهم هذا التحليل في توضيح قابلية تفسير النموذج، وقد يُرشد إلى تصميم خوارزميات مستقبلية للتمييز في الفيديو.