مساحات الحالة المهيكلة المختارة لفهم الفيديوهات الطويلة

النمذجة الفعالة للعلاقات المكانية-الزمانية المعقدة في مقاطع الفيديو الطويلة تظل مشكلة مفتوحة. يوفر النموذج المقترح حديثًا (النموذج المكاني-الزماني البنيوي S4) بتعقيده الخطي اتجاهًا واعدًا في هذا المجال. ومع ذلك، نوضح أن معاملة جميع رموز الصورة بالتساوي كما يفعل النموذج S4 يمكن أن تؤثر سلبًا على كفاءته ودقة نتائجه. لمعالجة هذه القيد، نقدم نموذج S5 الجديد الذي يستخدم مولد قناع خفيف لاختيار التكيفي لرموز الصورة المعلوماتية، مما يؤدي إلى نمذجة أكثر كفاءة ودقة للعلاقات المكانية-الزمانية طويلة الأجل في مقاطع الفيديو. على عكس طرق تخفيض الرموز القائمة على الأقنعة المستخدمة سابقًا في المتحولات (Transformers)، يتجنب نموذجنا S5 الحساب الكثيف للانتباه الذاتي من خلال الاستفادة من إرشادات النموذج S4 المحدث بالزخم. هذا يمكن نموذجنا من التخلص بكفاءة من الرموز الأقل معلوماتية والتكيف بشكل أفضل مع مهام فهم مقاطع الفيديو الطويلة المختلفة. ومع ذلك، كما هو الحال بالنسبة لأغلب طرق تخفيض الرموز، قد يتم إسقاط الرموز الصورية المعلوماتية بشكل غير صحيح. لتحسين متانة نموذجنا وأفقه الزمني، نقترح أسلوب تعلم تبايني طويل-قصير جديد باستخدام أقنعة (LSMCL) يتيح لنماذجنا التنبؤ بسياق زمني أطول باستخدام مقاطع فيديو قصيرة كمدخلات. نقدم نتائج مقارنة شاملة باستخدام ثلاثة مجموعات بيانات صعبة لفهم مقاطع الفيديو الطويلة (LVU وCOIN وBreakfast)، مما يثبت أن أسلوبنا يتخطى باستمرار أفضل ما تم تحقيقه سابقًا بواسطة النموذج S4 بنسبة دقة تصل إلى 9.6% بينما يقلل من حجم ذاكرته بمقدار 23%.