فيسيل: تعلم التشابه المكاني-الزماني الدقيق للفيديوهات

في هذا البحث، نقدم ViSiL، وهي هندسة لتعلم التشابه بين الفيديوهات تأخذ بعين الاعتبار العلاقات المكانية-الزمانية الدقيقة بين أزواج الفيديوهات - هذه العلاقات غالبًا ما تضيع في طرق استرجاع الفيديو السابقة التي تقوم بتضمين الإطار بأكمله أو حتى الفيديو بأكمله في وصف متجهي قبل تقدير التشابه. بالمقارنة مع ذلك، يتم تدريب نهجنا القائم على الشبكات العصبية التلافيفية (CNN) لحساب التشابه بين الفيديوهات من خلال مصفوفات التشابه الدقيقة بين الإطارات، وذلك للنظر في العلاقات داخل الإطار وبين الإطارات. في الطريقة المقترحة، يتم تقدير التشابه الزوجي بين الإطارات من خلال تطبيق الضرب النقطي للموتر (Tensor Dot) ثم تشابه تشامفر (Chamfer Similarity) على خصائص الإطارات الإقليمية للشبكة العصبية التلافيفية - وهذا يتجنب جمع الخصائص قبل حساب التشابه بين الإطارات. بعد ذلك، يتم إدخال مصفوفة التشابه بين جميع إطارات الفيديو إلى شبكة CNN ذات الأربع طبقات، ومن ثم يتم تلخيصها باستخدام تشابه تشامفر (Chamfer Similarity) إلى درجة تشابه بين الفيديوهات - وهذا يتجنب جمع الخصائص قبل حساب التشابه بين الفيديوهات ويُمكن من التقاط الأنماط الزمانية للتشابه بين سلاسل الإطارات المتطابقة. نقوم بتدريب الشبكة المقترحة باستخدام مخطط خسارة ثلاثي الأبعاد (triplet loss scheme) وتقييمها على خمسة قواعد بيانات عامة معيارية لأربع مشاكل مختلفة في استرجاع الفيديو حيث نظهر تحسينات كبيرة بالمقارنة مع أفضل التقنيات الحالية. إن تنفيذ ViSiL متاح بشكل عام.