HyperAIHyperAI
منذ 2 أشهر

الاستعلام مرتين: التعلم الميتا للانتباه المزدوج المختلط لملخص الفيديو

Junyan Wang; Yang Bai; Yang Long; Bingzhang Hu; Zhenhua Chai; Yu Guan; Xiaolin Wei
الاستعلام مرتين: التعلم الميتا للانتباه المزدوج المختلط لملخص الفيديو
الملخص

الملخص الفيديو يهدف إلى اختيار الإطارات التمثيلية للحفاظ على المعلومات ذات المستوى العالي، والتي تُحل عادةً من خلال التنبؤ بدرجة الأهمية لكل قطعة عبر دالة softmax. ومع ذلك، تعاني دالة softmax من الحفاظ على التمثيلات ذات الرتبة العالية للمعلومات البصرية أو المتسلسلة المعقدة، وهي مشكلة تُعرف باسم مشكلة زجاجة softmax (Softmax Bottleneck). في هذا البحث، نقترح إطارًا جديدًا يُسمى نموذج الاهتمام المزدوج المختلط مع التعلم الفائق (DMASum) للملخص الفيديو الذي يعالج مشكلة زجاجة softmax، حيث تقوم طبقة الاهتمام المختلط (MoA) بزيادة قدرة النموذج بشكل فعال من خلال استخدام اهتمام الاستفسار الذاتي مرتين يمكنه التقاط التغييرات من الدرجة الثانية بالإضافة إلى اهتمام الاستفسار-المفتاح الأولي. ثم يتم تقديم قاعدة جديدة للتعلم الفائق للإطار الواحد لتحقيق تعميم أكبر للمجموعات الصغيرة من البيانات ذات المصادر التدريبية المحدودة. بالإضافة إلى ذلك، يستغل DMASum بشكل كبير كلًا من الاهتمام البصري والاهتمام المتسلسل الذي يربط الإطارات الرئيسية المحلية والاهتمام العالمي بطريقة تراكمية. نحن نعتمد بروتوكول تقييم جديد على مجموعتين عامتين من البيانات، وهما SumMe وTVSum. وقد أظهرت التجارب النوعية والكمية تحسينات كبيرة على أفضل الأساليب الحالية.

الاستعلام مرتين: التعلم الميتا للانتباه المزدوج المختلط لملخص الفيديو | أحدث الأوراق البحثية | HyperAI