HyperAIHyperAI
منذ 2 أشهر

الدمج الخفيف للخصائص الانتباهية: أساس جديد لاسترجاع الفيديو من النص

Hu, Fan ; Chen, Aozhu ; Wang, Ziyue ; Zhou, Fangming ; Dong, Jianfeng ; Li, Xirong
الدمج الخفيف للخصائص الانتباهية: أساس جديد لاسترجاع الفيديو من النص
الملخص

في هذه الورقة، نعيد النظر في دمج الخصائص (feature fusion)، وهو موضوع قديم، في سياق جديد يتعلق باسترجاع الفيديو من النص. على عكس الأبحاث السابقة التي تأخذ بعين الاعتبار دمج الخصائص فقط في أحد طرفي العملية، سواء كان الفيديو أو النص، نهدف إلى دمج الخصائص في كلا الطرفين ضمن إطار موحد. نفترض أن تحسين الجمع المحدب للخصائص هو الخيار الأفضل مقارنة بنمذجة ارتباطاتها باستخدام تقنية الانتباه الذاتي متعدد الرؤوس (multi-head self attention) التي تتطلب حسابات ثقيلة. نقترح خوارزمية دمج الخصائص الانتباهية الخفيفة (Lightweight Attentional Feature Fusion - LAFF). تقوم LAFF بدمج الخصائص في المراحل المبكرة والمتأخرة وفي كلا طرفي الفيديو والنص، مما يجعلها طريقة قوية لاستغلال مجموعة متنوعة من الخصائص (off-the-shelf). يمكن استخدام قابلية فهم LAFF لاختيار الخصائص. تبرهن التجارب الواسعة على خمسة مجموعات مرجعية عامة (MSR-VTT، MSVD، TGIF، VATEX و TRECVID AVS 2016-2020) على أن LAFF هي نقطة بداية جديدة لاسترجاع الفيديو من النص.

الدمج الخفيف للخصائص الانتباهية: أساس جديد لاسترجاع الفيديو من النص | أحدث الأوراق البحثية | HyperAI