دمج النموذج الزمني لاستخلاص ملخصات الفيديو غير المُعلَّم باستخدام آلية الانتباه
في هذه الدراسة، نقدم طريقة غير مراقبة جديدة تُسمى SegSum، مصممة لتلخيص مقاطع الفيديو من خلال إنشاء نسخ مختصرة (skims) من الفيديو. تعتمد معظم الطرق الحديثة على تدريب مُلخّص (summarizer) لتعيين درجات أهمية للإطارات الفردية في الفيديو، والتي تُجمع لاحقًا لحساب درجات لمقاطع الفيديو الناتجة عن طرق مثل التجزئة الزمنية باستخدام النواة (Kernel Temporal Segmentation - KTS). ومع ذلك، فإن هذه الطريقة تُحد من وصول المُلخّص إلى معلومات حيوية ضرورية لتكوين الملخص، وخاصة العلاقات المكانية-الزمنية داخل المقاطع. تُعدّ الطريقة المقترحة في هذا العمل هي إدخال معلومات المقاطع المستمدة من KTS إلى عملية التعلم الخاصة بالمُلخّص، باستخدام هيكلية تركيز مركز (concentrated attention) في النماذج العميقة. في تجاربنا، قمنا بتقييم طريقتنا بشكل مكثف عبر عدة مجموعات بيانات وعدد كبير من الأطر المعمارية الخاصة بتلخيص الفيديو غير المراقب. وباستخدام وحدة التركيز المركز، نجحنا في تحقيق أفضل نتائج في مؤشر F1 على المعايير المعيارية، حيث بلغت 54% على مجموعة بيانات SumMe و62% على مجموعة بيانات TVSum. علاوةً على ذلك، حتى مع استخدام شبكة تنبؤ بسيطة (Regressor network)، تُظهر SegSum أداءً تنافسيًا، حيث تُنتج ملخصات تتماشى بشكل وثيق مع التسميات البشرية.