VVS: استرجاع الفيديو إلى الفيديو مع كبح الإطارات غير ذات الصلة

في استرجاع الفيديو القائم على المحتوى (CBVR)، يُعدّ الكفاءة مساويةً للدقة عند التعامل مع مجموعات ضخمة، لذا تم إجراء العديد من الدراسات القائمة على السمات على مستوى الفيديو بشكل نشط. ومع ذلك، نظرًا للصعوبة البالغة في تمثيل فيديو طويل وغير مُقَصَّر بسمة واحدة، كانت هذه الدراسات غير كافية من حيث الدقة مقارنةً بالدراسات القائمة على السمات على مستوى الإطارات. في هذه الورقة، نُظهر أن كبح الإطارات غير ذات الصلة بشكل مناسب يمكن أن يُقدّم رؤى حول التحديات الحالية التي تواجه النهج على مستوى الفيديو. علاوةً على ذلك، نُقدّم شبكة كبح الفيديو إلى الفيديو (VVS) كحلٍّ لهذه المشكلة. تُعدّ VVS إطارًا يعمل بشكل كامل (end-to-end) ويتكوّن من مرحلة تقليل المشتتات البسيطة لتحديد الإطارات التي يجب إزالتها، ومرحلة توليد أوزان الكبح لتحديد مدى كبح الإطارات المتبقية. يهدف هذا الهيكل إلى وصف فعّال للفيديو غير المُقَصَّر الذي يحتوي على محتوى متغير ومعلومات غير ذات معنى. وقد أُثبتت فعالية هذه الطريقة من خلال تجارب واسعة النطاق، ونُظهر أن نهجنا لا يُعدّ الأفضل في الوقت الراهن ضمن النهج على مستوى الفيديو فحسب، بل يمتلك أيضًا وقت استجابة سريعًا، رغم قدرته على الاسترجاع التي تقترب من تلك الخاصة بالنهج القائمة على مستوى الإطارات. يمكن الوصول إلى الكود عبر الرابط: https://github.com/sejong-rcv/VVS