HyperAIHyperAI

Command Palette

Search for a command to run...

الدمج الخفيف للخصائص الانتباهية: أساس جديد لاسترجاع الفيديو من النص

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

الملخص

في هذه الورقة، نعيد النظر في دمج الخصائص (feature fusion)، وهو موضوع قديم، في سياق جديد يتعلق باسترجاع الفيديو من النص. على عكس الأبحاث السابقة التي تأخذ بعين الاعتبار دمج الخصائص فقط في أحد طرفي العملية، سواء كان الفيديو أو النص، نهدف إلى دمج الخصائص في كلا الطرفين ضمن إطار موحد. نفترض أن تحسين الجمع المحدب للخصائص هو الخيار الأفضل مقارنة بنمذجة ارتباطاتها باستخدام تقنية الانتباه الذاتي متعدد الرؤوس (multi-head self attention) التي تتطلب حسابات ثقيلة. نقترح خوارزمية دمج الخصائص الانتباهية الخفيفة (Lightweight Attentional Feature Fusion - LAFF). تقوم LAFF بدمج الخصائص في المراحل المبكرة والمتأخرة وفي كلا طرفي الفيديو والنص، مما يجعلها طريقة قوية لاستغلال مجموعة متنوعة من الخصائص (off-the-shelf). يمكن استخدام قابلية فهم LAFF لاختيار الخصائص. تبرهن التجارب الواسعة على خمسة مجموعات مرجعية عامة (MSR-VTT، MSVD، TGIF، VATEX و TRECVID AVS 2016-2020) على أن LAFF هي نقطة بداية جديدة لاسترجاع الفيديو من النص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp