HyperAIHyperAI

Command Palette

Search for a command to run...

W2VV++: التعلم العميق بالكامل للبحث في الفيديو العشوائي

Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong

الملخص

يُعد البحث في الفيديو العشوائي (AVS) مشكلة مهمة لكنها صعبة في مجال استرجاع الوسائط المتعددة. على عكس الطرق القائمة على المفاهيم السابقة، نقترح طريقة تعلم عميق نهائية (end-to-end) لتعلم تمثيل الاستعلام. تعتمد الطريقة المقترحة على عدم الحاجة إلى نمذجة المفاهيم أو مطابقتها أو اختيارها. ويُشكّل نموذج W2VV++، الذي طوّرناه كنسخة مُحسَّنة من نموذج Word2VisualVec (W2VV) السابق المستخدم في المطابقة بين الصور والنص، العمود الفقري للطريقة المقترحة. يتم الحصول على W2VV++ من خلال تعديل W2VV باستخدام استراتيجية ترميز جملة أفضل ووظيفة خسارة ترتيب ثلاثية مُحسَّنة. وبفضل هذه التغييرات البسيطة، يحقق W2VV++ تحسينًا كبيرًا في الأداء. كما تُظهر مشاركتنا في مهمة AVS الخاصة بـ TRECVID 2018، بالإضافة إلى التجارب الاسترجاعية على بيانات TRECVID 2016 و2017، أن أفضل نموذج فردي لدينا، والذي حقق متوسط دقة مُستخلص (infAP) إجماليًا قدره 0.157، يتفوق على أحدث الأداء المُستوى في المجال. ويمكن تحسين الأداء أكثر من خلال تجميع النماذج باستخدام تجميع متوسط متأخر (late average fusion)، مما يوصل إلى متوسط دقة مُستخلص أعلى يبلغ 0.163. وباستخدام W2VV++، نُنشئ قاعدة معيارية جديدة للبحث في الفيديو العشوائي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp