HyperAIHyperAI
منذ 2 أشهر

VideoLights: تحسين الميزات ومتغير التحويل للمحاذاة بين المهام للكشف المشترك عن مقاطع الفيديو البارزة واسترجاع اللحظات

Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
VideoLights: تحسين الميزات ومتغير التحويل للمحاذاة بين المهام للكشف المشترك عن مقاطع الفيديو البارزة واسترجاع اللحظات
الملخص

اكتشاف المقاطع المهمة واسترجاع اللحظات (HD/MR) يعتبران أساسيين في تحليل الفيديو. غالباً ما تتجاهل النماذج الحديثة للمتحولات التنبؤية المشتركة الديناميكيات بين المهام وتوافق وتكرار الفيديو والنص. بالإضافة إلى ذلك، تستخدم معظم النماذج آليات انتباه أحادية الاتجاه محدودة، مما يؤدي إلى تمثيلات متكاملة ضعيفة وأداء غير مثالي في التقاط الترابط بين أنماط الفيديو والنص. رغم أن النماذج اللغوية الكبيرة والنماذج البصرية-اللغوية (LLM/LVLMs) قد اكتسبت بروزًا في مجالات مختلفة، فإن تطبيقها في هذا المجال لا يزال نسبيًا قليل الاستكشاف. هنا نقترح VideoLights، إطار جديد لـ HD/MR يعالج هذه القيود من خلال: (i) وحدات الإسقاط التجاعيدي وتحسين الميزات مع خسارة التوافق لتحسين توافق الميزات بين الفيديو والنص، (ii) شبكة الاندماج العابر للأنماط ثنائية الاتجاه للحصول على تمثيلات مقاطع مقترنة بشكل قوي ومعرفة بالاستعلام، (iii) آلية رد فعل مشتركة أحادية الاتجاه تعزز كلتا المهمتين من خلال الارتباط. بالإضافة إلى ذلك، (iv) نقدم خسائر إيجابية/سلبية صعبة لتعزيز العقوبات المتكيّفة والأداء التعليمي، و(v) نستفيد من LVLMs مثل BLIP-2 لتحسين دمج الميزات متعددة الأنماط والاستفادة من التعلم الأولي الذكي باستخدام بيانات اصطناعية تم إنشاؤها بواسطة LVLMs. تظهر التجارب الشاملة على مقاييس QVHighlights وTVSum وCharades-STA أداءً رائدًا في هذا المجال. يمكن الوصول إلى الأكواد والنماذج عبر الرابط https://github.com/dpaul06/VideoLights .

VideoLights: تحسين الميزات ومتغير التحويل للمحاذاة بين المهام للكشف المشترك عن مقاطع الفيديو البارزة واسترجاع اللحظات | أحدث الأوراق البحثية | HyperAI