HyperAIHyperAI
منذ 2 أشهر

تصنيف الفيديو بكفاءة باستخدام عدد أقل من الإطارات

Shweta Bhardwaj; Mukundhan Srinivasan; Mitesh M. Khapra
تصنيف الفيديو بكفاءة باستخدام عدد أقل من الإطارات
الملخص

في الآونة الأخيرة، ازداد الاهتمام ببناء نماذج مدمجة لتصنيف الفيديو والتي تتميز بحجم ذاكرة صغير (أقل من 1 جيجابايت). رغم أن هذه النماذج مدمجة، فإنها تعمل عادةً عن طريق تطبيق متكرر لمصفوفة أوزان صغيرة على جميع الإطارات في الفيديو. على سبيل المثال، تُحسب النماذج القائمة على الشبكات العصبية المتكررة حالة خفية لكل إطار من إطارات الفيديو باستخدام مصفوفة وزن متكررة. وبالمثل، تستخدم النماذج القائمة على التجميع والتكثيف مثل NetVLAD (نت فلاد) مصفوفة تجميع قابلة للتعلم لتعيين مجموعات ناعمة لكل إطار في الفيديو. نظرًا لأن هذه النماذج تنظر إلى كل إطار في الفيديو، فإن عدد العمليات العددية الطافية (FLOPs) لا يزال كبيرًا حتى مع وجود حجم ذاكرة صغير.نركز على بناء نماذج تصنيف فيديو كفوءة من حيث الحساب والتي تعالج عددًا أقل من الإطارات وبالتالي لديها عدد أقل من العمليات العددية الطافية (FLOPs). مشابهًا للنماذج الكفوءة من حيث الذاكرة، نستخدم فكرة التقطير ولكن في سياق مختلف. بشكل خاص، في حالتنا، يتم استخدام نموذج معلم حاسوبي ثقيل ينظر إلى جميع الإطارات في الفيديو لتدريب طالب حاسوبي كفوء ينظر فقط إلى نسبة صغيرة من الإطارات في الفيديو. هذا يختلف عن الإعداد التقليدي للمعلم والطالب الكفوئين من حيث الذاكرة، حيث ينظر كلٌّ من المعلم والطالب إلى جميع الإطارات في الفيديو ولكن الطالب لديه عدد أقل من المعلمات.وبذلك,则我们的工作补充了关于内存高效视频分类的研究。我们对三种类型的视频分类模型进行了广泛的评估,即(i) 循环模型 (ii) 聚类和聚合模型 和 (iii) 内存高效的聚类和聚合模型,并证明在每种情况下,都可以使用一个全视角的教师来训练一个计算高效的视角狭窄的学生。我们展示了所提出的网络可以减少推理时间约30%,并减少大约90%的FLOPs数量,同时性能下降微乎其微。修正后的翻译:وبذلك,则我们的工作补充了关于内存高效视频分类的研究。我们对三种类型的视频分类模型进行了广泛的评估,即:- (i) 循环模型 (النماذج المتكررة)- (ii) 聚类和聚合模型 (النماذج القائمة على التجميع والتكثيف)- (iii) 内存高效的聚类和聚合模型 (النماذج القائمة على التجميع والتكثيف الكفوءة من حيث الذاكرة)ونثبت أن في كل حالة يمكن استخدام نموذج معلم يرى كل شيء لتدريب طالب كفوء يرى القليل جدًا. وقد أظهرنا أن الشبكة المقترحة يمكنها تقليل وقت الاستدلال بنسبة حوالي 30٪ وتقليل عدد العمليات العددية الطافية (FLOPs) بنسبة تقريبية 90٪ مع انخفاض ضئيل للغاية في الأداء.

تصنيف الفيديو بكفاءة باستخدام عدد أقل من الإطارات | أحدث الأوراق البحثية | HyperAI