DnS: تَشْرِيحٌ وَاختِيَارٌ لفَهْمٍ فعّالٍ ودَقيقٍ لفِهْمِ الفيديو واسترجاعه

في هذه الورقة، نتناول مشكلة استرجاع الفيديو القائم على المحتوى بمستوى عالٍ من الأداء وفعالية حسابية عالية في مجموعات بيانات ضخمة. تُقترح في الطرق الحالية إما: (أ) نُهج دقيقة جدًا تعتمد على تمثيلات فضائية-زمنية وحسابات التشابه، والتي تحقق أداءً عاليًا على حساب تكلفة حسابية مرتفعة، أو (ب) نُهج خشنة نسبيًا تمثل/فهرس الفيديوهات كمتجهات عامة، حيث يتم فقدان البنية الفضائية-الزمنية، مما يؤدي إلى أداء منخفض لكنه يتميز بتكاليف حسابية منخفضة. في هذا العمل، نقترح إطارًا يُسمى "Distill-and-Select" (DnS) يستند إلى تقنية تبادل المعرفة (Knowledge Distillation)، والذي يبدأ من شبكة "معلّم" دقيقة الأداء ويتعلم: أ) شبكات "طلاب" بمستويات مختلفة من التنازل بين أداء الاسترجاع وكفاءة الحساب، و ب) شبكة "مُوجّه" (Selector Network) توجه بشكل سريع العينات إلى الطالب المناسب أثناء الاختبار، مع الحفاظ على كلاً من الأداء العالي في الاسترجاع والكفاءة العالية في الحساب. قمنا بتدريب عدة طلاب ببنية معمارية مختلفة، ووصلنا إلى توازنات متنوعة بين الأداء والكفاءة، أي السرعة ومتطلبات التخزين، بما في ذلك طلاب دقيقين يخزنون/فهرسون الفيديوهات باستخدام تمثيلات ثنائية (binary representations). من المهم أن يسمح النموذج المقترح بتبادل المعرفة في مجموعات بيانات كبيرة وغير مُعلَّمة — مما يؤدي إلى تكوين طلاب ذوي أداء جيد. قمنا بتقييم DnS على خمس مجموعات بيانات عامة ضمن ثلاث مهام مختلفة لاسترجاع الفيديو، وتم إثبات أن: أ) تحقق شبكات الطلاب لدينا أداءً من الدرجة الأولى (state-of-the-art) في عدة حالات، و ب) يوفر إطار DnS توازنًا ممتازًا بين أداء الاسترجاع، وسرعة الحساب، ومساحة التخزين. في تكوينات محددة، تحقق الطريقة المقترحة أداءً مشابهًا لشبكة المعلّم من حيث متوسط الدقة (mAP)، ولكنها أسرع بـ 20 مرة، وتحتاج إلى مساحة تخزين أقل بـ 240 مرة. تم إتاحة مجموعة البيانات المجمعة والتنفيذ المصدري للجميع: https://github.com/mever-team/distill-and-select.