الاندراج الزمني المتعامد للاعتراف بالفيديو بدون تعلم سابق

التعرف على الفيديو بدون نماذج مسبقة (ZSVR) هو مهمة تهدف إلى التعرف على فئات الفيديو التي لم يتم رؤيتها خلال عملية تدريب النموذج. مؤخرًا، أظهرت نماذج الرؤية واللغة (VLMs) التي تم تدريبها مسبقًا على أزواج صور-نصوص كبيرة الحجم قابلية نقل مثيرة للإعجاب لـ ZSVR. لجعل هذه النماذج قابلة للتطبيق في مجال الفيديو، غالبًا ما تستخدم الطرق الحالية وحدة تعلم زمني إضافية بعد المُشفِّر المستوي الصوري لتعلم العلاقات الزمنية بين إطارات الفيديو. ومع ذلك، بالنسبة للفيديوهات من فئات غير معروفة، نلاحظ ظاهرة غير طبيعية حيث يؤدي استخدام النموذج للميزات المكانية-الزمنية إلى أدائه بشكل أسوأ بكثير من النموذج الذي يحذف وحدة التعلم الزمني ويستخدم فقط الميزات المكانية. نفترض أن التشكيل الزمني الخاطئ للفيديو يعكر صفو الميزات المكانية للفيديو. للتحقق من فرضيتنا، نقترح تقنية تحليل العناصر للمحافظة على الميزات الزمنية العمودية للفيديو واستخدام الاستكمال لإنشاء ميزات مكانية-زمنية محسَّنة. يؤدي النموذج الذي يستخدم الميزات المكانية-الزمنية المحسَّنة بشكل صحيح أفضل من النموذج الذي يستخدم فقط الميزات المكانية، مما يؤكد فعالية الميزات الزمنية العمودية في مهمة ZSVR. لذلك، تم تصميم وحدة استكمال زمني عمودي لتعلم ميزات فيديو مكانية-زمنية أكثر دقة أثناء التدريب. بالإضافة إلى ذلك، تم تقديم خسارة التطابق لتحسين جودة الميزات الزمنية العمودية. نقترح نموذجًا يُسمى OTI لمهمة ZSVR باستخدام الاستكمال الزمني العمودي وخسارة التطابق بناءً على نماذج الرؤية واللغة (VLMs). تُظهر دقة ZSVR على مجموعة بيانات الفيديو الشهيرة (مثل Kinetics-600، UCF101 و HMDB51) أن OTI يتفوق بوضوح على الطريقة الأكثر حداثة سابقًا بمقدار كبير.