تجاوز القطع القصيرة: الشبكات العميقة لتصنيف الفيديو

الشبكات العصبية المتلافهة (CNNs) قد تم تطبيقها بشكل واسع في مشاكل التعرف على الصور، مما أدى إلى تحقيق نتائج متميزة في مجالات التعرف والكشف والتقطيع والاسترجاع. في هذا البحث، نقترح ونقيم عدة هياكل للشبكات العصبية العميقة لدمج معلومات الصورة عبر الفيديو لفترات زمنية أطول مما جرى محاولته سابقًا. نقترح طريقتين قادرتين على التعامل مع مقاطع الفيديو الكاملة. الطريقة الأولى تستكشف مختلف هياكل التجميع الزمني للميزات المتلافهة، فتدرس الخيارات التصميمية المختلفة التي يجب اتخاذها عند تكييف شبكة CNN لهذا المهمة. أما الطريقة الثانية المقترحة فتنموذج الفيديو صراحة كمتتابعة مرتبة من الإطارات. لهذا الغرض، نستخدم شبكة عصبية متكررة تعتمد خلايا الذاكرة طويلة الأمد قصيرة الأمد (LSTM) المرتبطة بخرج الشبكة العصبية المتلافهة الأساسية. أفضل شبكاتنا تظهر تحسينات أداء كبيرة مقارنة بالنتائج المنشورة سابقًا على مجموعة بيانات Sports 1 مليون (73.1٪ مقابل 60.9٪) وعلى مجموعتي بيانات UCF-101 مع (88.6٪ مقابل 88.0٪) وعدم وجود معلومات التدفق البصري إضافية (82.6٪ مقابل 72.8٪).