HyperAIHyperAI
منذ 17 أيام

تصنيف الفيديو على نطاق واسع باستخدام الشبكات العصبية التلافيفية

{Li Fei-Fei, Rahul Sukthankar, Thomas Leung, George Toderici, Sanketh Shetty, Andrej Karpathy}
تصنيف الفيديو على نطاق واسع باستخدام الشبكات العصبية التلافيفية
الملخص

تم إثبات أن الشبكات العصبية التلافيفية (CNNs) تمثل فئة قوية من النماذج لمشكلات التعرف على الصور. مستوحين من هذه النتائج، نقدم تقييمًا تجريبيًا شاملاً للشبكات العصبية التلافيفية في تصنيف الفيديو على نطاق واسع باستخدام مجموعة بيانات جديدة تتضمن 1 مليون فيديو من يوتيوب تابعة لـ 487 فئة. وندرس عدة طرق لتوسيع الاتصال في الشبكة العصبية التلافيفية على مدى الزمن، بهدف الاستفادة من المعلومات المكانية-الزمنية المحلية، ونقترح بنية متعددة الدقة ذات تركز بؤري (foveated architecture) كطريقة واعدة لتسريع عملية التدريب. تُظهر أفضل الشبكات المكانية-الزمنية تحسينات كبيرة في الأداء مقارنة بأساليب الميزات القوية (من 55.3% إلى 63.9%)، لكن التحسن محدود بشكل مفاجئ مقارنة بالنماذج التي تعتمد على إطار واحد فقط (من 59.3% إلى 60.9%). كما ندرس أداء التعميم للنموذج الأفضل من خلال إعادة تدريب الطبقات العليا على مجموعة بيانات UCF-101 لتمييز الحركات، ونلاحظ تحسينات كبيرة في الأداء مقارنة بنموذج الأساس الخاص بـ UCF-101 (من 43.9% إلى 63.3%).