HyperAIHyperAI
منذ 11 أيام

W2VV++: التعلم العميق بالكامل للبحث في الفيديو العشوائي

{Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong}
الملخص

يُعد البحث في الفيديو العشوائي (AVS) مشكلة مهمة لكنها صعبة في مجال استرجاع الوسائط المتعددة. على عكس الطرق القائمة على المفاهيم السابقة، نقترح طريقة تعلم عميق نهائية (end-to-end) لتعلم تمثيل الاستعلام. تعتمد الطريقة المقترحة على عدم الحاجة إلى نمذجة المفاهيم أو مطابقتها أو اختيارها. ويُشكّل نموذج W2VV++، الذي طوّرناه كنسخة مُحسَّنة من نموذج Word2VisualVec (W2VV) السابق المستخدم في المطابقة بين الصور والنص، العمود الفقري للطريقة المقترحة. يتم الحصول على W2VV++ من خلال تعديل W2VV باستخدام استراتيجية ترميز جملة أفضل ووظيفة خسارة ترتيب ثلاثية مُحسَّنة. وبفضل هذه التغييرات البسيطة، يحقق W2VV++ تحسينًا كبيرًا في الأداء. كما تُظهر مشاركتنا في مهمة AVS الخاصة بـ TRECVID 2018، بالإضافة إلى التجارب الاسترجاعية على بيانات TRECVID 2016 و2017، أن أفضل نموذج فردي لدينا، والذي حقق متوسط دقة مُستخلص (infAP) إجماليًا قدره 0.157، يتفوق على أحدث الأداء المُستوى في المجال. ويمكن تحسين الأداء أكثر من خلال تجميع النماذج باستخدام تجميع متوسط متأخر (late average fusion)، مما يوصل إلى متوسط دقة مُستخلص أعلى يبلغ 0.163. وباستخدام W2VV++، نُنشئ قاعدة معيارية جديدة للبحث في الفيديو العشوائي.

W2VV++: التعلم العميق بالكامل للبحث في الفيديو العشوائي | أحدث الأوراق البحثية | HyperAI