HyperAIHyperAI
منذ 17 أيام

التعلم المُفصَّل للتمثيل في الاسترجاع النصي-الفيديو

Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, Xian-Sheng Hua
التعلم المُفصَّل للتمثيل في الاسترجاع النصي-الفيديو
الملخص

التفاعل عبر الوسائط يُعد عنصراً حاسماً في مهام استرجاع النص-الفيديو (TVR)، ومع ذلك، لم تُجرَ دراسة واسعة حول تأثير العوامل المختلفة المؤثرة في حساب هذا التفاعل على الأداء. في هذه الورقة، نُجري دراسة متعمقة لنمط التفاعل، ونجد أن عملية حسابه يمكن تقسيمها إلى حدين: المحتوى المتفاعل على مستويات تفصيل مختلفة، والدالة المطابقة التي تميز بين الأزواج ذات المعنى نفسه. كما لاحظنا أن التمثيل المتجهي الواحد والدالة التفاعلية الضمنية تُعيقان بشكل كبير عملية التحسين. استناداً إلى هذه النتائج، نقترح إطاراً منفصلاً (disentangled framework) لالتقاط تمثيل تسلسلي هرمي. أولاً، وباعتبار البنية التسلسلية الطبيعية الموجودة في كل من المدخلات النصية والمرئية، نطبق وحدة تفاعل موزون حسب الرموز (WTI) لفصل المحتوى واستغلال العلاقات الثنائية بشكل تكيفي. يُمكن لهذا التفاعل أن يُكوّن منعطفاً منفصلاً أفضل للمدخلات التسلسلية. ثانيًا، نُقدّم تنظيماً تقليلياً لفصل الترابطات بين القنوات (CDCR) بهدف تقليل التكرار بين مكونات المتجهات المُقارنة، مما يُسهّل تعلّم تمثيل هرمي. ونُظهر فعالية التمثيل المنفصل على مجموعة متنوعة من المعايير، حيث نُفوق CLIP4Clip بشكل ملحوظ بنسبة +2.9% و+3.1% و+7.9% و+2.3% و+2.8% و+6.5% في مؤشر R@1 على مجموعات MSR-VTT وMSVD وVATEX وLSMDC وActivityNet وDiDeMo على التوالي.

التعلم المُفصَّل للتمثيل في الاسترجاع النصي-الفيديو | أحدث الأوراق البحثية | HyperAI