HyperAIHyperAI
منذ 17 أيام

TS2-Net: نموذج انتقال وتحديد الرموز للبحث النصي-المرئي

Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin
TS2-Net: نموذج انتقال وتحديد الرموز للبحث النصي-المرئي
الملخص

استرجاع النص-الفيديو هو مهمة ذات قيمة عملية كبيرة وقد لاقت اهتمامًا متزايدًا، حيث يُعدّ تعلّم تمثيل الفيديو الزماني-المكاني من بين المحاور البحثية البارزة. عادةً ما تستخدم نماذج استرجاع الفيديو الحديثة بشكل مباشر نماذج رؤية مُدرّبة مسبقًا مع هيكل شبكة ثابت، مما يمنع تحسينها أكثر لتكوين تمثيلات فيديو زمانية-مكانية دقيقة. في هذا البحث، نقترح شبكة Shift وSelection للرموز (TS2-Net)، وهي معمارية جديدة من نوع Transformer تعتمد على نقل وتحديد الرموز، والتي تقوم بتعديل تسلسل الرموز ديناميكيًا وتحديد الرموز المفيدة في كلا البعدين الزماني والمكانى من عينات الفيديو المدخلة. يُقوم وحدة نقل الرموز بنقل ميزات الرموز بالكامل ذهابًا وإيابًا عبر الإطارات المجاورة، مما يُحافظ على التمثيل الكامل للرموز ويُمكن من اكتشاف الحركات الدقيقة. ثم تقوم وحدة اختيار الرموز باختيار الرموز التي تسهم بشكل أكبر في التمثيل المكاني المحلي. وبناءً على تجارب مكثفة، تُحقق TS2-Net أداءً متقدمًا على معايير استرجاع النص-الفيديو الرئيسية، بما في ذلك إقامة أرقام قياسية جديدة على مجموعات بيانات MSRVTT وVATEX وLSMDC وActivityNet وDiDeMo.

TS2-Net: نموذج انتقال وتحديد الرموز للبحث النصي-المرئي | أحدث الأوراق البحثية | HyperAI