النمذجة المشتركة للفيديو بناءً على المحول الهرمي للاستدلال المشترك

يهدف تلخيص الفيديو إلى إنشاء ملخص تلقائي (لوحة قصة أو استعراض فيديو) للفيديو، مما يمكن من تسهيل استرجاع الفيديوهات وتصفحها على نطاق واسع. ومع ذلك، فإن معظم الطرق الحالية تقوم بتلخيص الفيديو لكل فيديو بشكل منفصل، مما يتجاهل العلاقات بين الفيديوهات المتشابهة. ومع ذلك، هذه العلاقات مفيدة أيضًا لفهم الفيديو وتلخيصه. للتعامل مع هذا القصور، نقترح نموذج التعلم المشترك للفيديو المستند إلى المحول الهرمي (VJMHT) لتلخيص الفيديوهات المشتركة، والذي يأخذ بعين الاعتبار الارتباطات الدلالية بين الفيديوهات. تحديدًا، يتكون VJMHT من طبقتين من المحولات: الطبقة الأولى تستخرج التمثيل الدلالي من اللقطات الفردية للفيديوهات المتشابهة، بينما تقوم الطبقة الثانية بالنمذجة المشتركة للفيديوهات على مستوى اللقطة لجمع المعلومات الدلالية عبر الفيديوهات. بهذه الطريقة، يتم نمذجة وتعلم الأنماط العليا الكاملة عبر الفيديوهات بشكل صريح لتلخيص الفيديوهات الفردية. بالإضافة إلى ذلك، تم تقديم إعادة بناء التمثيل الدلالي للفيديو المستند إلى المحولات لتحقيق أقصى قدر من التشابه العالي المستوى بين الملخص والفيديو الأصلي. تم إجراء تجارب واسعة النطاق للتحقق من فعالية الوحدات المقترحة والتفوق الذي حققه VJMHT فيما يتعلق بقياس F والتقييم القائم على الرتبة.