LAMV: التعلّم على المُحاذاة والتوافق بين الفيديوهات باستخدام طبقات زمنية مُحَوَّلة

يُعَرِّض هذا البحث نهجًا قابلاً للتعلم لمقارنة ومحاذاة الفيديوهات. تعتمد بنية نموذجنا على إعادة النظر في طبقات التوقيت (temporal match kernels) داخل الشبكات العصبية: نقترح طبقة زمنية جديدة تُحدِّد محاذاة الزمن من خلال تكبير الدرجات بين تسلسلي متجهين، وفقًا لمعيار تشابه حساس للزمن، مُعَرَّف في المجال التوافقي (Fourier domain). ونُدرِّب هذه الطبقة باستخدام استراتيجية اقتراح زمني، حيث نُقلِّل من خسارة ثلاثية (triplet loss) تأخذ بعين الاعتبار دقة التحديد المكاني ومعدل التعرف معًا. وقد تم تقييم منهجنا في مهام محاذاة الفيديو، وكشف النسخ، واسترجاع الأحداث. وقد أظهرت النتائج تفوق منهجنا على أحدث الطرق المنشورة في مهام محاذاة الفيديو الزمنية وكشف نسخ الفيديو ضمن بيئة مقارنة، كما حقق أفضل النتائج المُبلغ عنها في بحث أحداث معينة، مع الحفاظ على دقة عالية في محاذاة الفيديوهات.