Command Palette
Search for a command to run...
تحليل الميزات متعددة الوسائط العميقة لتحديد الأفعال في مقاطع الفيديو RGB+D
تحليل الميزات متعددة الوسائط العميقة لتحديد الأفعال في مقاطع الفيديو RGB+D
Shahroudy Amir Ng Tian-Tsong Gong Yihong Wang Gang
الملخص
تم استكشاف التعرف على الحركات باستخدام وسيلة واحدة، سواء من خلال تسلسلات الصور الملونة (RGB) أو التسلسلات العميقة (Depth)، بشكل واسع في الآونة الأخيرة. ومن المقبول عمومًا أن لكلٍ من هاتين الوسيلتين مزايا وقيود مختلفة فيما يتعلق بمهام التعرف على الحركات. وبالتالي، فإن تحليل مقاطع الفيديو المدمجة (RGB+D) يمكن أن يساعدنا على دراسة الخصائص المكملة لهاتين النوعين من الوسائط بشكل أفضل، وبالتالي تحقيق أداءً أعلى. في هذه الورقة، نقترح شبكة جديدة تعتمد على مُشفّر تلقائي عميق (Deep Autoencoder) لتحليل الميزات المشتركة والخاصة، بهدف فصل الإشارات متعددة الوسائط المدخلة إلى هرمٍ من المكونات. علاوةً على ذلك، استنادًا إلى البنية المميزة للميزات، نقترح آلة تعلّم مبنية على نمط التفرع الهيكلي (Structured Sparsity Learning Machine)، والتي تستخدم القيم المختلطة (Mixed Norms) لتطبيق عملية الت régularization داخل المكونات، وتحديد المجموعة بينها، بهدف تحسين الأداء في التصنيف. أظهرت نتائج التجارب لدينا فعالية إطارنا التحليلي للمسارات المتقاطعة بين الوسائط، حيث تم تحقيق دقة متفوقة على مستوى الحالة الحالية (State-of-the-Art) في تصنيف الحركات على خمسة مجموعات معيارية صعبة.