DSNet: شبكة مرنة من نوع الكشف إلى التلخيص للتلخيص المرئي
في هذه الورقة، نقترح إطار عمل يُسمى شبكة الكشف عن الاستجابة (DSNet) للتلخيص المراقب للفيديوهات. يحتوي إطار DSNet على نسختين: واحدة تعتمد على المُحددات (anchor-based) وأخرى لا تعتمد عليها (anchor-free). تُولِّد الطريقة المبنية على المُحددات اقتراحات زمنية للاهتمام لتحديد ومُحدد محتوى الفيديو المُمثل، بينما تُزيل الطريقة غير المبنية على المُحددات الاقتراحات الزمنية المُحددة مسبقًا وتنبئ مباشرة بدرجات الأهمية ومواقع المقاطع. على عكس الطرق المُعتمدة مسبقًا في التلخيص المراقب للفيديوهات التي تُصِرّ على صياغة مشكلة التلخيص كمُشكلة انحدار دون أخذ الاتساق والتكامل الزمنيين بعين الاعتبار، فإن إطارنا للكشف عن الاهتمام يُعدّ المحاولة الأولى لاستغلال الاتساق الزمني من خلال صيغة الكشف عن الاهتمام الزمني. بشكل محدد، في النهج المبني على المُحددات، نُقدّم أولاً عينة كثيفة للاقتراحات الزمنية للاهتمام باستخدام فترات متعددة المقاييس لتلبية التغيرات في طول الاهتمام، ثم نستخرج سمات زمنية طويلة المدى لاقتراحات الاهتمام لغرض الانحدار في تحديد الموقع وتقدير الأهمية. ومن الجدير بالذكر أن كل من المقاطع الإيجابية والسلبية تُعيَّن لضمان المعلومات الصحيحة والشاملة في الملخصات الناتجة. أما في النهج غير المبني على المُحددات، فإننا نخفف من عيوب الاقتراحات الزمنية من خلال التنبؤ مباشرة بدرجات الأهمية للإطارات الزمنية ومواقع المقاطع. وبشكل خاص، يمكن إدراج إطار الكشف عن الاهتمام بشكل مرن في أي طريقة جاهزة للتلخيص المراقب للفيديوهات. وقد قُمنا بتقييم النهج المبني على المُحددات وغير المبني على المُحددات على مجموعتي بيانات SumMe وTVSum. وأظهرت النتائج التجريبية بوضوح فعالية كلا النهجين.