شبكات العينات الديناميكية للتعرف الفعّال على الحركات في الفيديوهات

تُعتمد الطرق الحالية للتعرف على الحركات بشكل رئيسي على تصنيفات على مستوى القطع (clip-level)، مثل الشبكات العصبية التلافيفية الثنائية التدفق (two-stream CNNs) أو الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D CNNs)، والتي تُدرَّب على قطع تم اختيارها عشوائيًا، وتُطبَّق لاحقًا على قطع مُعدَّة بكثافة خلال مرحلة الاختبار. ومع ذلك، قد يكون هذا الإعداد القياسي غير مثالي لتدريب المصنفات، كما يتطلب حجمًا كبيرًا من الموارد الحسابية عند تطبيقه عمليًا. ولحل هذه المشكلات، نقترح إطارًا جديدًا للتعرف على الحركات في الفيديوهات، يُسمَّى "الشبكات الديناميكية للعينة" (Dynamic Sampling Networks – DSN)، من خلال تصميم وحدة عينة ديناميكية تُحسّن من قدرة المصنفات المُتعلّمة على مستوى القطع على التمييز، وتعزز أيضًا كفاءة الاستنتاج أثناء الاختبار. بشكل محدد، يتكون DSN من وحدة عينة ووحدة تصنيف، حيث تهدف الأولى إلى تعلُّم سياسة عينة تُحدِّد تلقائيًا أي قطع يجب الاحتفاظ بها، بينما تهدف الثانية إلى تدريب مصنف على مستوى القطع لتنفيذ التعرف على الحركات بناءً على القطع المختارة. وبشكل خاص، عند إدخال فيديو، ندرّب شبكة مراقبة (observation network) ضمن إطار تعليم تفاعلي مُرَابِط (associative reinforcement learning) بهدف تعظيم مكافآت القطع المختارة عند تحقيق تنبؤ صحيح. وقد أجرينا تجارب واسعة لدراسة جوانب مختلفة من إطار DSN على أربع مجموعات بيانات للتعرف على الحركات: UCF101، HMDB51، THUMOS14، وActivityNet v1.3. وتبين نتائج التجارب أن DSN قادر على تحسين كفاءة الاستنتاج بشكل كبير، وذلك باستخدام أقل من نصف عدد القطع، مع الحفاظ على دقة تعرف مُتفوِّقة قليلاً أو مماثلة لأفضل الطرق الحالية.