منذ 17 أيام

إطار موحد لفصل وربط متعدد الوسائط متعدد الطبقات للتمييز الحركي RGB-D

Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang

الملخص

تمثّل التعرف على الحركة اتجاهًا واعدًا في مجال رؤية الحاسوب، لكن تدريب نماذج تصنيف الفيديو يظل أكثر صعوبة مقارنةً بالصور بسبب نقص البيانات وعدد كبير جدًا من المعاملات. ولتجاوز هذه التحديات، اتّجهت بعض الدراسات إلى استكشاف إشارات متعددة الوسائط من البيانات RGB-D. وعلى الرغم من التحسن النسبي في أداء التعرف على الحركة، لا تزال هذه الطرق تعاني من حالات غير مثالية في الجوانب التالية: (أ) تكبير البيانات، أي أن حجم مجموعات بيانات RGB-D لا يزال محدودًا، ولا توجد مجهودات كافية لاستكشاف استراتيجيات جديدة لتكبير البيانات الخاصة بالفيديوهات؛ (ب) آلية التحسين، أي أن البنية الشبكية المترابطة بشكل وثيق عبر الفضاء والزمن تُعَقّد عملية نمذجة المعلومات المكانية-الزمنية؛ (ج) دمج المعرفة عبر الوسائط، أي أن التشابه العالي بين تمثيلات البيانات متعددة الوسائط يؤدي إلى عدم كفاية دمج المعلومات في المراحل اللاحقة. ولتخفيف هذه العيوب، نقترح في هذا البحث تحسين التعرف على الحركة القائم على بيانات RGB-D من منظورين: البيانات والخوارزميات معًا. وبشكل أكثر تفصيلًا، نُقدّم أولًا طريقة جديدة لتكبير بيانات الفيديو تُسمّى ShuffleMix، والتي تعمل كمكمل لطريقة MixUp، وتوفّر تقليلًا زمنيًا إضافيًا لتحسين التعرف على الحركة. ثانيًا، نقترح إطارًا موحدًا لفصل وتمكين الوسائط متعددة (Unified Multimodal De-coupling and multi-stage Re-coupling)، يُسمّى UMDR، لتعلم تمثيلات الفيديو. ثالثًا، نستكشف مُمَكِّنًا جديدًا للخصائص المكملة عبر الوسائط (Cross-modal Complement Feature Catcher - CFCer)، يهدف إلى استخلاص الخصائص المشتركة المحتملة من المعلومات متعددة الوسائط كمصدر مساعد لدمج البيانات في المراحل اللاحقة، بهدف تحسين نتائج الدمج النهائي. وعند دمج هذه التصاميم المبتكرة بشكل سلس، نحصل على تمثيل مكاني-زمني قوي، ويُظهر الأداء المتفوّق مقارنةً بالأساليب المتطورة حاليًا على أربع مجموعات بيانات عامة للحركة. وبشكل خاص، حقّق UMDR تحسينات غير مسبوقة بنسبة +4.5% على مجموعة بيانات Chalearn IsoGD. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/zhoubenjia/MotionRGBD-PAMI.