ملخص الفيديو باستخدام شبكات المُشفِّر والمُفكِّك المستندة إلى الانتباه

يتناول هذا البحث مشكلة تلخيص الفيديو تحت الإشراف من خلال صياغتها كمشكلة تعلم متتالية إلى متتالية، حيث تكون المدخلات متتالية لصور الفيديو الأصلية والمخرجات متتالية للقطات الرئيسية. الفكرة الأساسية لدينا هي تعلم شبكة عميقة لتلخيص مع آلية الانتباه بهدف تقليد طريقة اختيار اللقطات الرئيسية من قبل الإنسان. لتحقيق هذا، نقترح إطارًا جديدًا لتلخيص الفيديو يُسمى شبكات الترميز-التفكيك ذات الانتباه لتلخيص الفيديو (AVS)، حيث يستخدم الترميز LSTM ثنائية الاتجاه (BiLSTM) لترميز المعلومات السياقية بين صور الفيديو المدخلة. أما بالنسبة للتفكيك، فقد تم استكشاف شبكتين LSTM تعتمدان على الانتباه باستخدام دوال هدف جمعية وضربية على التوالي. أجريت تجارب موسعة على ثلاثة مجموعات بيانات مرجعية لتلخيص الفيديو، وهي SumMe وTVSum. أظهرت النتائج تفوق النهج المقترح القائم على AVS على أفضل النهج الحالية، مع تحسينات ملحوظة تتراوح بين 0.8% و3% في كلتا المجموعتين البيانات.