النمذجة الزمنية الضمنية مع التوافق القابل للتعلم للتعرف على الفيديو

أظهرت التدريب المقارن للغة والصورة (CLIP) نجاحًا ملحوظًا في مهام متعددة متعلقة بالصور. ومع ذلك، لا يزال التمديد الفعّال لـ CLIP بوجود نمذجة زمنية فعّالة مشكلة مفتوحة وحيوية. تعاني النماذج الحالية المُفصّلة أو المشتركة للمساحة والزمن من تنازل بين الكفاءة والأداء. في حين أن نمذجة المعلومات الزمنية داخل أنبوب مباشر (straight-through tube) مُتّخذة على نطاق واسع في الأدبيات، نجد أن التوافيق البسيطة للإطارات توفر بالفعل ما يكفي من الجوهر دون الحاجة إلى انتباه زمني. لذا، في هذا البحث، نقترح طريقة جديدة تُسمى "التوافق الضمني القابل للتعلم" (ILA)، التي تقلل من جهد النمذجة الزمنية مع تحقيق أداء مذهل. بشكل محدد، بالنسبة لزوج من الإطارات، نُحدّد نقطة تفاعلية في كل إطار، تُشكّل منطقة غنية بالمعلومات المتبادلة. وبتعزيز السمات المحيطة بهذه النقطة، يتم تحقيق التوافيق الضمني بين الإطارات. ثم تُجمّع السمات المُتوافقة في رمز واحد، والذي يستخدم لاحقًا في الانتباه الذاتي المكاني. تسمح هذه الطريقة بإزالة الانتباه الذاتي الزمني الباهظ أو غير الكافي في مقاطع الفيديو. أظهرت التجارب الواسعة على معايير معيارية التفوق والشمولية لوحدتنا. وبشكل خاص، حققت الطريقة المقترحة دقة أعلى بنسبة 1% تبلغ 88.7% على مجموعة بيانات Kinetics-400، مع عدد أقل بكثير من العمليات الحسابية (FLOPs) مقارنةً بـ Swin-L و ViViT-H. تم إتاحة الكود على الرابط: https://github.com/Francis-Rings/ILA.