MeMViT: نموذج تحويل البصريات متعدد المقياس المدعوم بالذاكرة للتمييز الفعّال للفيديوهات طويلة الأمد

بينما تستطيع أنظمة التعرف على الفيديو الحالية تحليل الصور الثابتة أو المقاطع القصيرة بدقة، إلا أنها ما زالت غير قادرة على ربط الأحداث وتحقيق الاستدلال عبر فترة زمنية أطول. معظم الهياكل الحالية لمعالجة الفيديو قادرة على معالجة أقل من 5 ثوانٍ من الفيديو دون التعرض لمشكلات في الحوسبة أو الذاكرة.في هذه الورقة، نقترح استراتيجية جديدة للتغلب على هذا التحدي. بدلًا من محاولة معالجة عدد أكبر من الإطارات دفعة واحدة كما تفعل معظم الطرق الحالية، نقترح معالجة الفيديو بطريقة مباشرة (online) وتخزين "ذاكرة" في كل تكرار. من خلال هذه الذاكرة، يمكن للنموذج الإشارة إلى السياق السابق لتمكين النمذجة على المدى الطويل، وبتكلفة زائدة ضئيلة جدًا. استنادًا إلى هذه الفكرة، قمنا ببناء MeMViT، وهو نموذج يعتمد على التحويلة البصرية متعددة المقاييس مع دعم ذاكرة، والذي يمتلك دعمًا زمنيًا أطول بـ 30 مرة مقارنةً بالنماذج الحالية، مع زيادة بسيطة جدًا في الحوسبة بنسبة 4.5% فقط؛ في حين أن الطرق التقليدية تحتاج إلى زيادة تزيد عن 3000% في الحوسبة لتحقيق نفس النتيجة. على مجموعة واسعة من المعايير، أدى الزيادة في الدعم الزمني التي يوفرها MeMViT إلى تحسينات كبيرة ومستمرة في دقة التعرف. وحقق MeMViT نتائج رائدة على مجموعات بيانات AVA وEPIC-Kitchens-100 لتصنيف الحركات، وتنبؤ الحركات. يُمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/facebookresearch/memvit.