الملخص الفيديو المشترك والتحديد اللحظي من خلال نقل العينات عبر المهام

لقد لاقت ملخصات الفيديو اهتمامًا متزايدًا في المجتمعات الخاصة بعلم الحاسوب الرؤيوي في الآونة الأخيرة. ومع ذلك، فإن ندرة البيانات المُعلَّمة تظل عقبة رئيسية أمام هذا المجال. لمعالجة هذه المشكلة، يُقدِّم هذا العمل حلًا جديدًا لملخصات الفيديو من خلال نقل العينات من مهمة مرتبطة (أي تحديد اللحظات في الفيديو)، والتي تمتلك كمية كبيرة من البيانات التدريبية. الفكرة الأساسية هنا هي أن اللحظات المُعلَّمة في الفيديو تُشير إلى النقاط الجوهرية من حيث المعنى، وهي مماثلة جوهريًا لملخص الفيديو. بشكل تقريبي، يمكن اعتبار ملخص الفيديو نسخة مُختصرة وخالية من التكرار من اللحظات في الفيديو. مستوحى من هذه الملاحظة، نقترح شبكة تدريس تعاونية تعتمد على انتقال الأهمية (iPTNet)، والتي تتكون من وحدتين منفصلتين تقوم كل منهما بمهام مختلفة: إحداهما تُجري ملخص الفيديو، والأخرى تُحدد اللحظات في الفيديو. تقوم كل وحدة بتقدير خريطة أهمية على مستوى الإطارات لتحديد الإطارات الرئيسية أو اللحظات المهمة. ولتمكين نقل العينات بين المهام المختلفة، نصمم وحدة انتقال الأهمية التي تُمكّن من التحويل بين خرائط الأهمية الموجهة بملخص الفيديو وخريطة الأهمية الموجهة بتحديد اللحظات. وبهذه الطريقة، يصبح من الممكن تحسين إحدى المهمتين باستخدام بيانات من المهمة الأخرى. علاوةً على ذلك، لتجنب تضخيم الأخطاء الناتجة عن التدريب المشترك على مجموعات مجمعة (batch-wise)، نُقدِّم خطة تدريس تعاونية تعتمد على استراتيجية تدريس متوسطة عبر المهام، مما يحقق التحسين المشترك للحالتين ويوفر إشارات تعليمية قوية على مستوى الإطار. أظهرت التجارب الواسعة على مجموعات بيانات معيارية لملخصات الفيديو أن iPTNet تتفوّق بشكل ملحوظ على الطرق السابقة الأفضل في مجال ملخصات الفيديو، مما يجعلها حلًا فعّالًا يتجاوز مشكلة ندرة البيانات في هذا المجال.