HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLights: تحسين الميزات ومتغير التحويل للمحاذاة بين المهام للكشف المشترك عن مقاطع الفيديو البارزة واسترجاع اللحظات

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

الملخص

اكتشاف المقاطع المهمة واسترجاع اللحظات (HD/MR) يعتبران أساسيين في تحليل الفيديو. غالباً ما تتجاهل النماذج الحديثة للمتحولات التنبؤية المشتركة الديناميكيات بين المهام وتوافق وتكرار الفيديو والنص. بالإضافة إلى ذلك، تستخدم معظم النماذج آليات انتباه أحادية الاتجاه محدودة، مما يؤدي إلى تمثيلات متكاملة ضعيفة وأداء غير مثالي في التقاط الترابط بين أنماط الفيديو والنص. رغم أن النماذج اللغوية الكبيرة والنماذج البصرية-اللغوية (LLM/LVLMs) قد اكتسبت بروزًا في مجالات مختلفة، فإن تطبيقها في هذا المجال لا يزال نسبيًا قليل الاستكشاف. هنا نقترح VideoLights، إطار جديد لـ HD/MR يعالج هذه القيود من خلال: (i) وحدات الإسقاط التجاعيدي وتحسين الميزات مع خسارة التوافق لتحسين توافق الميزات بين الفيديو والنص، (ii) شبكة الاندماج العابر للأنماط ثنائية الاتجاه للحصول على تمثيلات مقاطع مقترنة بشكل قوي ومعرفة بالاستعلام، (iii) آلية رد فعل مشتركة أحادية الاتجاه تعزز كلتا المهمتين من خلال الارتباط. بالإضافة إلى ذلك، (iv) نقدم خسائر إيجابية/سلبية صعبة لتعزيز العقوبات المتكيّفة والأداء التعليمي، و(v) نستفيد من LVLMs مثل BLIP-2 لتحسين دمج الميزات متعددة الأنماط والاستفادة من التعلم الأولي الذكي باستخدام بيانات اصطناعية تم إنشاؤها بواسطة LVLMs. تظهر التجارب الشاملة على مقاييس QVHighlights وTVSum وCharades-STA أداءً رائدًا في هذا المجال. يمكن الوصول إلى الأكواد والنماذج عبر الرابط https://github.com/dpaul06/VideoLights .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp