CLIP-It! التلخيص الفيديوي الموجه باللغة

ملخص الفيديو العام هو نسخة مختصرة من الفيديو تنقل القصة بأكملها وتضمن المشاهد الأكثر أهمية. ومع ذلك، فإن أهمية المشاهد في الفيديو غالباً ما تكون ذاتية، ويجب أن يكون لدى المستخدمين خيار تخصيص الملخص باستخدام اللغة الطبيعية لتحديد ما هو مهم بالنسبة لهم. بالإضافة إلى ذلك، لم تستغل النماذج الحالية الموجهة نحو الملخصات العامة بشكل كامل النماذج اللغوية المتاحة، والتي يمكن أن تعمل كسابقة فعالة للبروز. يقدم هذا العمل CLIP-It، وهو إطار عمل واحد يتناول كل من الملخصات العامة والملخصات الموجهة بالاستفسار (Query-Focused Video Summarization)، وهي عادةً ما يتم التعامل معها بشكل منفصل في الأدب العلمي. نقترح تحويلياً متعدد الوسائط موجهاً باللغة يتعلم تقييم الإطارات في الفيديو بناءً على أهميتها بالنسبة لبعضها البعض وارتباطها بطلب محدد من قبل المستخدم (للملخصات الموجهة بالاستفسار) أو بتعليق فيديو كثيف تم إنشاؤه تلقائياً (للملخصات العامة للفيديو). يمكن توسيع نموذجنا ليشمل الإعداد غير المنظور عن طريق التدريب دون إشراف حقيقي. نتفوق على النماذج الأساسية والأعمال السابقة بمعدل كبير في كل من مجموعات البيانات القياسية للملخصات العامة للفيديو (TVSum و SumMe) ومجموعة بيانات ملخصات الفيديو الموجهة بالاستفسار (QFVS). وبشكل خاص، نحقق تحسينات كبيرة في الإعداد النقل، مما يدل على قدرة طريقة عملنا على التعميم بشكل قوي.