HyperAIHyperAI

Command Palette

Search for a command to run...

SEA: جهاز ترميز الجملة للبحث عن الفيديو بواسطة الاستعلامات النصية

Xirong Li, Member, IEEE, Fangming Zhou, Chaoxi Xu, Jiaqi Ji, Gang Yang

الملخص

استرجاع الفيديوهات غير المصنفة من خلال الاستعلامات النصية، المعروف باسم البحث العرضي عن الفيديو (Ad-hoc Video Search - AVS)، هو موضوع أساسي في إدارة واسترجاع البيانات المتعددة الوسائط. يعتمد نجاح AVS على تعلم التمثيل عبر الأوضاع الذي يقوم بترميز الجمل الاستعلامية والفيديوهات في فضاءات مشتركة لحساب التشابه الدلالي. مستوحى من النجاح الأولي لبعض الأعمال السابقة التي جمعت بين مرمِّزات جمل متعددة، تقدم هذه الورقة خطوة للأمام من خلال تطوير طريقة جديدة وعامة لاستغلال مرمِّزات الجمل المتنوعة بشكل فعال. يتميز الطريقة المقترحة، والتي نطلق عليها اسم تجميع مرمِّز الجمل (Sentence Encoder Assembly - SEA)، بميزتين رئيسيتين. أولاً، على عكس التقنيات السابقة التي تستعمل فضاءًا مشتركًا واحدًا فقط، يدعم SEA مطابقة النص-الفيديو في فضاءات مشتركة متعددة خاصة بكل مرمِّز. هذا الخاصية يمنع المطابقة من أن تكون محكومة بمرمِّز معين ينتج متجه ترميز أطول بكثير من باقي المرمِّزات. ثانياً، للبحث عن التكامل بين الفضاءات المشتركة الفردية، نقترح تعلم خسارة متعدد الفضاءات (multi-space multi-loss learning). كما تظهر التجارب الواسعة على أربع مقاييس (MSR-VTT، TRECVID AVS 2016-2019، TGIF و MSVD) أن SEA يتخطى الحالة الراهنة للتقنية (state-of-the-art). بالإضافة إلى ذلك، فإن SEA سهل التنفيذ بشكل كبير. كل هذا يجعل SEA حلاً جذابًا لـAVS وواعدًا لمواصلة تقدم المهمة من خلال استغلال مرمِّزات الجمل الجديدة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SEA: جهاز ترميز الجملة للبحث عن الفيديو بواسطة الاستعلامات النصية | مستندات | HyperAI