HyperAIHyperAI
منذ 2 أشهر

الترميز المزدوج لاسترجاع الفيديو بواسطة النص

Dong, Jianfeng ; Li, Xirong ; Xu, Chaoxi ; Yang, Xun ; Yang, Gang ; Wang, Xun ; Wang, Meng
الترميز المزدوج لاسترجاع الفيديو بواسطة النص
الملخص

هذا البحث يتناول المشكلة الصعبة لاسترجاع الفيديو بواسطة النص. في هذا النموذج من الاسترجاع، يقوم المستخدم النهائي بالبحث عن مقاطع الفيديو غير المصنفة من خلال استعلامات عفوية يتم وصفها بشكل حصري بجملة بلغة طبيعية، دون تقديم مثال بصري. نظرًا لأن الفيديوهات تُقدم كسلسلة من الإطارات والاستعلامات تُقدم كسلسلة من الكلمات، فإن التوافق متعدد الوسائط فعال بين السلاسل هو أمر حاسم. لتحقيق ذلك، يجب أولاً ترميز الوسيلتين إلى متجهات ذات قيم حقيقية ومن ثم إسقاطها في فضاء مشترك. في هذا البحث، نحقق ذلك من خلال اقتراح شبكة ترميز عميقة ثنائية تقوم بترميز الفيديوهات والاستعلامات إلى تمثيلات كثيفة قوية خاصة بهما.نوفيتنا مزدوجة. أولاً، على خلاف الأعمال السابقة التي تعتمد على مرمِّز مستوي واحد معين، تقوم الشبكة المقترحة بالترميز متعدد المستويات الذي يمثل المحتوى الغني لكلا الوسيلتين بطريقة تتدرج من الخشن إلى الدقيق. ثانيًا، على خلاف خوارزميات التعلم التقليدية للفضاء المشترك التي تكون إما قائمة على المفاهيم أو قائمة على الفضاء الكامن، نقدم التعلم في فضاء هجين يجمع بين الأداء العالي للفضاء الكامن والتفسير الجيد للفضاء المفاهيمي. يعتبر الترميز الثنائي بسيطًا بمفهومه وفعالاً في التطبيق ويتم تدريبه بنهاية واحدة باستخدام التعلم في الفضاء الهجين.أظهرت التجارب الواسعة على أربعة مجموعات بيانات فيديو صعبة جدًا أن الطريقة الجديدة قابلة للتطبيق.

الترميز المزدوج لاسترجاع الفيديو بواسطة النص | أحدث الأوراق البحثية | HyperAI