تلخيص الفيديوهات باستخدام الانتباه المركّز مع أخذ فريدية وتعدّد إطارات الفيديو بعين الاعتبار

في هذه الدراسة، نصف طريقة جديدة لاستخلاص ملخصات الفيديو دون تدريب مراقب. وللتغلب على القيود التي تواجه الأساليب الحالية لاستخلاص ملخصات الفيديو دون تدريب مراقب، والتي تتعلق بتعقيد تدريب هياكل المولد-المُميّز (Generator-Discriminator)، واستخدام الشبكات العصبية التكرارية (RNNs) لنمذجة الاعتماديات بين الإطارات البعيدة المدى، وصعوبة التدريب المتوازي للهياكل الشبكية القائمة على RNNs، تعتمد الطريقة المطورة حصريًا على آلية الانتباه الذاتي (self-attention) لتقدير أهمية إطارات الفيديو. بدلًا من نمذجة اعتماديات الإطارات بشكل بسيط بناءً على الانتباه الشامل، تدمج طريقتنا آلية انتباه مركّزة قادرة على التركيز على كتل غير متداخلة في القطر الرئيسي لمصفوفة الانتباه، وتعزز المعلومات الحالية من خلال استخلاص واستغلال المعرفة المتعلقة بالتمايز والتنوع المميزين لإطارات الفيديو المرتبطة بها. وبهذا، تُقدّم طريقتنا تقديرات أكثر دقة حول أهمية الأجزاء المختلفة للفيديو، وتقلل بشكل كبير من عدد المعاملات القابلة للتعلم. تُظهر التقييمات التجريبية باستخدام مجموعتي بيانات معياريتين (SumMe وTVSum) تنافسية الطريقة المقترحة مقارنةً بالأساليب الأخرى المتطورة للاستخلاص دون تدريب مراقب، وتدل على قدرتها على إنتاج ملخصات فيديو قريبة جدًا من تفضيلات الإنسان. كما يُظهر التحليل التجريبي (Ablation Study) الذي يركّز على المكونات المقدمة، وتحديدًا استخدام الانتباه المركّز مع تقديرات قائمة على الانتباه حول التمايز والتنوع في الإطارات، مساهمة كل منها النسبية في الأداء العام لاستخلاص الملخصات.