HyperAIHyperAI
منذ 2 أشهر

SEA: جهاز ترميز الجملة للبحث عن الفيديو بواسطة الاستعلامات النصية

Li, Xirong ; Zhou, Fangming ; Xu, Chaoxi ; Ji, Jiaqi ; Yang, Gang
SEA: جهاز ترميز الجملة للبحث عن الفيديو بواسطة الاستعلامات النصية
الملخص

استرجاع الفيديوهات غير المصنفة من خلال الاستعلامات النصية، المعروف باسم البحث العرضي عن الفيديو (Ad-hoc Video Search - AVS)، هو موضوع أساسي في إدارة واسترجاع البيانات المتعددة الوسائط. يعتمد نجاح AVS على تعلم التمثيل عبر الأوضاع الذي يقوم بترميز الجمل الاستعلامية والفيديوهات في فضاءات مشتركة لحساب التشابه الدلالي. مستوحى من النجاح الأولي لبعض الأعمال السابقة التي جمعت بين مرمِّزات جمل متعددة، تقدم هذه الورقة خطوة للأمام من خلال تطوير طريقة جديدة وعامة لاستغلال مرمِّزات الجمل المتنوعة بشكل فعال. يتميز الطريقة المقترحة، والتي نطلق عليها اسم تجميع مرمِّز الجمل (Sentence Encoder Assembly - SEA)، بميزتين رئيسيتين. أولاً، على عكس التقنيات السابقة التي تستعمل فضاءًا مشتركًا واحدًا فقط، يدعم SEA مطابقة النص-الفيديو في فضاءات مشتركة متعددة خاصة بكل مرمِّز. هذا الخاصية يمنع المطابقة من أن تكون محكومة بمرمِّز معين ينتج متجه ترميز أطول بكثير من باقي المرمِّزات. ثانياً، للبحث عن التكامل بين الفضاءات المشتركة الفردية، نقترح تعلم خسارة متعدد الفضاءات (multi-space multi-loss learning). كما تظهر التجارب الواسعة على أربع مقاييس (MSR-VTT، TRECVID AVS 2016-2019، TGIF و MSVD) أن SEA يتخطى الحالة الراهنة للتقنية (state-of-the-art). بالإضافة إلى ذلك، فإن SEA سهل التنفيذ بشكل كبير. كل هذا يجعل SEA حلاً جذابًا لـAVS وواعدًا لمواصلة تقدم المهمة من خلال استغلال مرمِّزات الجمل الجديدة.

SEA: جهاز ترميز الجملة للبحث عن الفيديو بواسطة الاستعلامات النصية | أحدث الأوراق البحثية | HyperAI