HyperAIHyperAI
منذ 12 أيام

دمج الانتباه العالمي والمحلي مع الترميز المكاني لاستخلاص ملخصات الفيديو

{Ioannis Patras, Vasileios Mezaris, Georgios Balaouras, Evlampios Apostolidis}
دمج الانتباه العالمي والمحلي مع الترميز المكاني لاستخلاص ملخصات الفيديو
الملخص

يقدم هذا البحث منهجًا جديدًا للتلخيص المراقب للفيديوهات. وللتغلب على عيوب المعماريات الحالية القائمة على الشبكات العصبية التكرارية (RNN)، والتي تتعلق بنمذجة الاعتماد بين الإطارات البعيدة المدى وقدرة التدريب على التوازي، تعتمد النموذج المطور على استخدام آليات الانتباه الذاتي لتقييم أهمية إطارات الفيديو. على عكس النماذج السابقة القائمة على الانتباه التي تُنمذج اعتماد الإطارات من خلال مراقبة التسلسل الكامل للإطارات، يجمع منهجنا بين آليات الانتباه متعددة الرؤوس العالمية والمحليّة لاستكشاف نماذج مختلفة لاعتماد الإطارات على مستويات مختلفة من الدقة. علاوة على ذلك، تدمج آليات الانتباه المستخدمة عنصراً يُشفّر الموضع الزمني لإطارات الفيديو، وهو أمر بالغ الأهمية عند إنشاء ملخص فيديو. أظهرت التجارب على مجموعتي بيانات (SumMe وTVSum) فعالية النموذج المقترح مقارنة بالأساليب القائمة على الانتباه، وتنافسيته مع الطرق الأخرى الرائدة في مجال التلخيص المراقب. كما أظهرت دراسة التحليل التجريبي، التي ركزت على المكونات الرئيسية المقترحة، وهي استخدام آليات الانتباه متعددة الرؤوس العالمية والمحليّة بالتوازي مع مكون التشفير المطلق للموضع الزمني، مساهمات كل منها في الأداء العام للتلخيص.

دمج الانتباه العالمي والمحلي مع الترميز المكاني لاستخلاص ملخصات الفيديو | أحدث الأوراق البحثية | HyperAI