HyperAIHyperAI
منذ 2 أشهر

متغير متعدد الوسائط الهرمي لملخص الفيديوهات

Bin Zhao; Maoguo Gong; Xuelong Li
متغير متعدد الوسائط الهرمي لملخص الفيديوهات
الملخص

رغم النجاح الكبير الذي حققته ملخصات الفيديو بفضل شبكات النيورونات المتكررة (RNN)، فإن الأساليب القائمة على RNN تتجاهل الارتباطات العالمية والعلاقات متعددة الخطوات بين إطارات الفيديو، مما يحد من الأداء. يعتبر نموذج الترانسفورمر (Transformer) فعالاً في التعامل مع هذه المشكلة، ويتخطى الأساليب القائمة على RNN في عدة مهام نمذجة التسلسل مثل الترجمة الآلية، وكتابة تعليقات الفيديو، وغيرها. مستوحاة من النجاح الكبير للترانسفورمر والهيكل الطبيعي للفيديو (إطار-مشهد-فيديو)، تم تطوير ترانسفورمر هرمي لملخصات الفيديو، والذي يمكنه التقاط الارتباطات بين الإطارات والمشاهد، وإنشاء ملخص للفيديو باستخدام المعلومات المشهدية التي تشكلها المشاهد. علاوة على ذلك، نعتقد أن كلًا من المعلومات الصوتية والمعلومات البصرية ضروريان لمهمة ملخصات الفيديو. لدمج هذين النوعين من المعلومات، يتم ترميزهما في نظام ذو تيارين، وتم تطوير آلية دمج متعددة الوسائط بناءً على الترانسفورمر الهرمي. في هذا البحث، يُشار إلى الطريقة المقترحة باسم الترانسفورمر الهرمي متعدد الوسائط (HMT). عملياً، أظهرت التجارب الواسعة أن HMT يتخطى معظم الأساليب التقليدية والأساليب القائمة على RNN والأساليب القائمة على الانتباه في ملخصات الفيديو.

متغير متعدد الوسائط الهرمي لملخص الفيديوهات | أحدث الأوراق البحثية | HyperAI