HyperAIHyperAI

Command Palette

Search for a command to run...

الاستعلام مرتين: التعلم الميتا للانتباه المزدوج المختلط لملخص الفيديو

Junyan Wang Yang Bai Yang Long Bingzhang Hu Zhenhua Chai Yu Guan Xiaolin Wei

الملخص

الملخص الفيديو يهدف إلى اختيار الإطارات التمثيلية للحفاظ على المعلومات ذات المستوى العالي، والتي تُحل عادةً من خلال التنبؤ بدرجة الأهمية لكل قطعة عبر دالة softmax. ومع ذلك، تعاني دالة softmax من الحفاظ على التمثيلات ذات الرتبة العالية للمعلومات البصرية أو المتسلسلة المعقدة، وهي مشكلة تُعرف باسم مشكلة زجاجة softmax (Softmax Bottleneck). في هذا البحث، نقترح إطارًا جديدًا يُسمى نموذج الاهتمام المزدوج المختلط مع التعلم الفائق (DMASum) للملخص الفيديو الذي يعالج مشكلة زجاجة softmax، حيث تقوم طبقة الاهتمام المختلط (MoA) بزيادة قدرة النموذج بشكل فعال من خلال استخدام اهتمام الاستفسار الذاتي مرتين يمكنه التقاط التغييرات من الدرجة الثانية بالإضافة إلى اهتمام الاستفسار-المفتاح الأولي. ثم يتم تقديم قاعدة جديدة للتعلم الفائق للإطار الواحد لتحقيق تعميم أكبر للمجموعات الصغيرة من البيانات ذات المصادر التدريبية المحدودة. بالإضافة إلى ذلك، يستغل DMASum بشكل كبير كلًا من الاهتمام البصري والاهتمام المتسلسل الذي يربط الإطارات الرئيسية المحلية والاهتمام العالمي بطريقة تراكمية. نحن نعتمد بروتوكول تقييم جديد على مجموعتين عامتين من البيانات، وهما SumMe وTVSum. وقد أظهرت التجارب النوعية والكمية تحسينات كبيرة على أفضل الأساليب الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp