HyperAIHyperAI
منذ 9 أيام

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen
تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس
الملخص

أصبح استخدام النموذج المُدرّب مسبقًا على نطاق واسع CLIP لتنفيذ مهمة استرجاع الفيديو والنص (VTR) اتجاهًا جديدًا، حيث تفوق الطرق السابقة لاسترجاع الفيديو والنص. ومع ذلك، نظرًا للاختلاف الهيكلي والمحتوي بين الفيديو والنص، فإن النماذج القائمة على CLIP السابقة عرضة لحدوث تأقلم زائد (overfitting) أثناء التدريب، مما يؤدي إلى أداء استرجاع نسبيًا ضعيف. في هذه الورقة، نقترح شبكة تطابق المجموعة متعددة التدفقات مع خلطة خبراء ذات مفتاح واحد (CAMoE) ووظيفة خسارة ثنائية المُحسّن (DSL) جديدة لمعالجة هاتين المشكلتين الناتجتين عن التباين. تعتمد CAMoE على خلطة الخبراء (MoE) لاستخراج تمثيلات فيديو متعددة الزوايا، تشمل الحركات، الكيانات، المشاهد، إلخ، ثم محاذاة هذه التمثيلات مع الجزء المقابل من النص. في هذه المرحلة، نقوم ببحث واسع في وحدات استخراج الميزات ووحدات المحاذاة. أما وظيفة الخسارة DSL، فهي تهدف إلى منع ظهور التوافق الأقصى في اتجاه واحد الذي يحدث في الطرق التباينية السابقة. من خلال إدخال المعرفة المسبقة الذاتية لكل زوج ضمن الحزمة، تعمل DSL كمُصحّح لتصحيح مصفوفة التشابه، وتحقق بذلك التوافق الأقصى المزدوج. ورغم بساطة تنفيذ DSL (بمجرد سطر واحد من الكود)، إلا أنها تحقق تحسينًا ملحوظًا في الأداء. تُظهر النتائج أن CAMoE وDSL المُقترحان فعّالان بشكل كبير، ويمكن لكل منهما تحقيق الأداء الأفضل على مستوى العالم (SOTA) بشكل منفصل على مجموعة متنوعة من المعايير مثل MSR-VTT وMSVD وLSMDC. وبالإضافة إلى ذلك، عند استخدام كليهما معًا، يتحسن الأداء بشكل كبير، متفوقًا على أفضل النماذج السابقة بحوالي 4.6% في مؤشر R@1 على مجموعة MSR-VTT.

تحسين استرجاع الفيديو-النص من خلال محاذاة مجموعة نصية متعددة التدفقات ووظيفة خسارة دوالية سويفت مكس | أحدث الأوراق البحثية | HyperAI