InstanceFormer: إطار عمل للتحليل التوافقي للقطع في الفيديو الزمني

تحقيق الطرق الحديثة القائمة على المحولات (transformer) لفصل محددات الفيديو الخارجي (VIS) نتائج مثيرة للإعجاب، وتتفوق بشكل كبير على الطرق المباشرة (online). ومع ذلك، فإن اعتمادها على الفيديو الكامل، إلى جانب التعقيد الحسابي الهائل الناتج عن الانتباه الشامل الزمني-المكاني (Spatio-temporal attention)، يحد من تطبيقاتها الفعلية، خاصة في معالجة مقاطع الفيديو الطويلة. في هذه الورقة، نقترح إطارًا فعّالًا مباشرًا (online) يعتمد على المحولات يُسمى InstanceFormer، وهو مصمم خصيصًا لمعالجة مقاطع الفيديو الطويلة والصعبة. نقدّم ثلاث مكونات جديدة لتمثيل الاعتماد على المدى القصير والطويل، وتحقيق التماسك الزمني. أولاً، نُنقل تمثيلات المواقع والمعلومات الدلالية للمحددات السابقة لتمثيل التغيرات القصيرة المدى. ثانيًا، نقترح انتباهًا متقاطعًا ذا ذاكرة (memory cross-attention) جديدًا في الجزء الترميمي (decoder)، يسمح للشبكة بالنظر إلى المحددات السابقة ضمن نافذة زمنية محددة. ثالثًا، نستخدم خسارة تباينية زمنية (temporal contrastive loss) لفرض تماسك تمثيل المحدد عبر جميع الإطارات. يُعد الانتباه إلى الذاكرة والتماسك الزمني مفيدًا بشكل خاص في نمذجة الاعتماد على المدى الطويل، بما في ذلك السيناريوهات الصعبة مثل التغطية (الإغلاق). يتفوق InstanceFormer على الطرق السابقة المباشرة بفارق كبير عبر عدة مجموعات بيانات. والأهم من ذلك، يتجاوز InstanceFormer الطرق الخارجة (offline) في المجموعات الصعبة والطويلة مثل YouTube-VIS-2021 وOVIS. يمكن الوصول إلى الكود عبر الرابط: https://github.com/rajatkoner08/InstanceFormer.