VideoLights: تحسين الميزات ومتغير التحويل للمحاذاة بين المهام للكشف المشترك عن مقاطع الفيديو البارزة واسترجاع اللحظات

اكتشاف المقاطع المهمة واسترجاع اللحظات (HD/MR) يعتبران أساسيين في تحليل الفيديو. غالباً ما تتجاهل النماذج الحديثة للمتحولات التنبؤية المشتركة الديناميكيات بين المهام وتوافق وتكرار الفيديو والنص. بالإضافة إلى ذلك، تستخدم معظم النماذج آليات انتباه أحادية الاتجاه محدودة، مما يؤدي إلى تمثيلات متكاملة ضعيفة وأداء غير مثالي في التقاط الترابط بين أنماط الفيديو والنص. رغم أن النماذج اللغوية الكبيرة والنماذج البصرية-اللغوية (LLM/LVLMs) قد اكتسبت بروزًا في مجالات مختلفة، فإن تطبيقها في هذا المجال لا يزال نسبيًا قليل الاستكشاف. هنا نقترح VideoLights، إطار جديد لـ HD/MR يعالج هذه القيود من خلال: (i) وحدات الإسقاط التجاعيدي وتحسين الميزات مع خسارة التوافق لتحسين توافق الميزات بين الفيديو والنص، (ii) شبكة الاندماج العابر للأنماط ثنائية الاتجاه للحصول على تمثيلات مقاطع مقترنة بشكل قوي ومعرفة بالاستعلام، (iii) آلية رد فعل مشتركة أحادية الاتجاه تعزز كلتا المهمتين من خلال الارتباط. بالإضافة إلى ذلك، (iv) نقدم خسائر إيجابية/سلبية صعبة لتعزيز العقوبات المتكيّفة والأداء التعليمي، و(v) نستفيد من LVLMs مثل BLIP-2 لتحسين دمج الميزات متعددة الأنماط والاستفادة من التعلم الأولي الذكي باستخدام بيانات اصطناعية تم إنشاؤها بواسطة LVLMs. تظهر التجارب الشاملة على مقاييس QVHighlights وTVSum وCharades-STA أداءً رائدًا في هذا المجال. يمكن الوصول إلى الأكواد والنماذج عبر الرابط https://github.com/dpaul06/VideoLights .