DeepVS: نهج تنبؤ بالملحوظية الفيديوية القائم على التعلم العميق

في هذه الورقة، نقترح طريقة جديدة لتنبؤ الانتباه البصري في مقاطع الفيديو تعتمد على التعلم العميق، وتُسمى DeepVS. وبشكل خاص، نُنشئ قاعدة بيانات ضخمة لتسجيل حركات العين أثناء مشاهدة مقاطع فيديو (LEDOV)، تضم نقاط تركيز 32 مشاركًا على 538 مقطع فيديو. ومن خلال تحليل LEDOV، نلاحظ أن الانتباه البشري يكون أكثر عرضة لجذب الأشياء، وخصوصًا الأشياء المتحركة أو الأجزاء المتحركة منها. ولذلك، نطور شبكة عصبية متعددة الطبقات تعتمد على التحويلات الكونفولوشنية (OM-CNN) لتنبؤ الانتباه الداخلي داخل الإطار (intra-frame saliency) في إطار DeepVS، والتي تتكون من وحدتين فرعيتين: وحدة "الكينونة" (objectness) ووحدة "الحركة" (motion). وفي شبكة OM-CNN، نقترح استخدام قناع عابر للشبكات (cross-net mask) وتصحيح مميزات تسلسلي (hierarchical feature normalization) لدمج السمات المكانية من وحدة الكينونة مع السمات الزمنية من وحدة الحركة. كما نلاحظ من قاعدة بياناتنا وجود ارتباط زمني في الانتباه البشري، مع انتقال سلس في خرائط الانتباه عبر الإطارات. وبناءً على ذلك، نقترح شبكة LSTM مُبنية على التحويلات الكونفولوشنية ذات الهيكل المُنظَّم (SS-ConvLSTM)، والتي تستخدم السمات المستخرجة من OM-CNN كمدخلات. وبذلك، يمكن إنشاء خرائط الانتباه بين الإطارات (inter-frame saliency maps) للفيديو، والتي تأخذ بعين الاعتبار كلاً من البنية المُنظَّمة للإخراج مع التحيز المركزي، والانتقالات عبر الإطارات في خرائط انتباه الإنسان. وأخيرًا، تُظهر النتائج التجريبية أن DeepVS تتفوق على أحدث التقنيات في مجال تنبؤ الانتباه البصري في مقاطع الفيديو.